Разработка

Большая языковая модель на вашем компьютере — момент Stable Diffusion продолжается

Я думал, что пройдет еще несколько лет, прежде чем я смогу запустить модель класса GPT-3 на моем железе. Я ошибся — это будущее уже наступило.

Опубликовано

2 года назад

13.03.2023

Автор:

AppTractor

Ключевым моментом стал открытый выпуск модели генерации изображений Stable Diffusion еще в августе 2022 года. В то время я писал, что Stable Diffusion — это действительно большое дело.

Люди могли создавать изображения из текста на собственном железе!

Что еще более важно, разработчики могли вникать в суть происходящего.

Возникший в результате взрыв инноваций продолжается и сегодня. Совсем недавно ControlNet, похоже, обошел Stable Diffusion, опередив Midjourney и DALL-E с точки зрения своих возможностей.

Мне кажется, что “момент Stable Diffusion” в августе дал толчок всей новой волне интереса к генеративному ИИ, который затем был презапущен релизом ChatGPT в конце ноября.

Этот момент Stable Diffusion снова происходит прямо сейчас для больших языковых моделей — технологии, лежащей в основе самого ChatGPT.

Сегодня утром я впервые запустил языковую модель класса GPT-3 на своем персональном ноутбуке!

ИИ уже были странным. И станет намного страннее.

LLaMA

Несколько удивительно, что языковые модели, такие как GPT-3, на основе которых работают такие инструменты, как ChatGPT, намного больше и дороже в создании и эксплуатации, чем модели генерации изображений.

Лучшие из этих моделей в основном были созданы частными организациями, такими как OpenAI, и находились под жестким контролем — они были доступны через их API и веб-интерфейсы, но не были выпущены для запуска на своих собственных машинах.

Эти модели также БОЛЬШИЕ. Даже если бы вы могли получить модель GPT-3, вы не смогли бы запустить ее на обычном оборудовании — для этого обычно требуется несколько графических процессоров класса A100, каждый из которых стоит 8000 долларов и больше.

Но эта технология явно слишком важна, чтобы ее полностью контролировала небольшая группа компаний.

За последние несколько лет были выпущены десятки открытых больших языковых моделей, но ни одна из них не пришлась мне по вкусу с таких точек зрения:

Легко запустить на моем собственном оборудовании
Достаточно большая, чтобы быть полезной — идеально получить эквивалент возможностей GPT-3
Достаточно открытый исходный код, чтобы с ними можно было повозиться

Все изменилось вчера благодаря комбинации модели Facebook* LLaMA и llama.cpp Георгия Герганова.

Вот выдержка из описания LLaMA:

Мы представляем LLaMA, набор базовых языковых моделей от 7 до 65 миллиардов параметров. Мы обучаем наши модели на триллионах токенов и показываем, что можно обучать современные модели, используя исключительно общедоступные наборы данных, не прибегая к проприетарным и недоступным наборам данных. В частности, LLaMA-13B превосходит GPT-3 (175B) по большинству тестов, а LLaMA-65B конкурирует с лучшими моделями Chinchilla-70B и PaLM-540B. Мы публикуем все наши модели для исследовательского сообщества.

Важно отметить, что LLaMA не полностью «открыта». Вы должны согласиться с некоторыми строгими условиями, чтобы получить доступ к модели. Она предназначена для предварительного исследования и не может быть использована в коммерческих целях.

Совершенно киберпанковым ходом через несколько дней после релиза кто-то отправил этот PR в репозиторий LLaMA и там дал неофициальную ссылку для скачивания торрента с файлами моделей!

Так что они сейчас доступны всем. Возможно, вы не имеете права создавать на их основе коммерческий продукт, но джинн уже выпущен из бутылки. Этот яростный звук клавиатур, который вы слышите, говорит о том, что тысячи хакеров по всему миру начинают копаться и выяснять, на что похожа жизнь, когда вы можете запустить модель класса GPT-3 на своем собственном оборудовании.

llama.cpp

LLaMA сама по себе не очень хороша, так как ее все еще слишком сложно запустить на персональном ноутбуке.

Тут на сцене появляется Георгий Герганов.

Георгий — open source разработчик из Софии, Болгария (согласно его профилю на GitHub). Ранее он выпустил whisper.cpp, порт модели автоматического распознавания речи Whisper от OpenAI на C++. Этот проект открыл Whisper для огромного количества новых вариантов использования.

И он только что сделал то же самое с LLaMA. Первый релиз проекта Георгия llama.cpp состоялся вчера. Из README:

Основная цель — запустить модель с использованием 4-битного квантования на MacBook.

4-битное квантование — это метод уменьшения размера моделей, чтобы они могли работать на менее мощном оборудовании. Это также уменьшает размер модели на диске — до 4 ГБ для модели 7B и чуть менее 8 ГБ для модели 13B.

И это полностью работает!

Этой ночью я использовал проект для запуска модели 7B LLaMA на своем ноутбуке, а сегодня утром обновил его до модели 13B — той, которая, по утверждению Facebook, может конкурировать с GPT-3.

Вот мои подробные заметки о том, как я это сделал — большая часть необходимой мне информации уже была в README.

Когда мой ноутбук начал выдавать мне текст, я почувствовал, что мир вот-вот снова изменится.

Это худшее, что когда-либо случалось?

Я не беспокоюсь о сценариях из научной фантастики. Языковая модель, работающая на моем ноутбуке, — это не ОИИ, который вырвется на свободу и завоюет мир.

Но есть масса вполне реальных способов, которыми эта технология может быть использована во вред. Например:

Создание спама
Мошенничество с автоматическим написанием романов
Троллинг и разжигание ненависти
Фейковые новости и дезинформация
Автоматическая радикализация (я очень беспокоюсь об этом)

Не говоря уже о том, что эта технология подделывает вещи так же легко, как и повторяет фактическую информацию, и не дает возможности отличить подделку от оригинала.

До этого момента существовал тонкий слой защиты, когда такие компании, как OpenAI, имели ограниченную способность контролировать то, как люди взаимодействуют с этими моделями.

Теперь, когда мы можем запускать их на собственном оборудовании, даже этих элементов управления больше нет.

Как мы используем это во благо?

Я думаю, что это окажет огромное влияние на общество. Мой приоритет — попытаться направить это влияние в положительном направлении.

Легко попасть в циничную ловушку, думая, что здесь вообще нет ничего хорошего, а все, что связано с генеративным ИИ, либо активно вредит, либо является пустой тратой времени.

Лично я ежедневно использую инструменты генеративного ИИ для самых разных целей. Они повысили мою реальную производительность, но, что более важно, они расширили мои амбиции в отношении проектов, за которые я берусь.

На прошлой неделе я использовал ChatGPT, чтобы выучить AppleScript и сделать новый проект менее чем за час!

Я собираюсь продолжать исследовать и делиться действительно положительными примерами применения этой технологии. Это не будет изобретением чего-то нового, поэтому я думаю, что нашим приоритетом должно быть выяснение наиболее конструктивных способов использования технологии.

Что будет дальше

Предполагая, что Facebook не ослабит условия лицензирования, LLaMA, скорее всего, станет просто доказательством того, что локальные языковые модели реализуемы на потребительском железе, а не новой базовой моделью, которую люди будут использовать в будущем.

Но уже идет гонка, чтобы выпустить первую полностью открытую языковую модель, которая даст людям возможности, подобные ChatGPT, на их собственных устройствах.

Источник