Сегодня Meta* сообщила, что выпускает Llama 3.1 405B, модель, содержащую 405 миллиардов параметров. Параметры примерно соответствуют навыкам модели в решении задач, и модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.
Llama 3.1 405B, содержащая 405 миллиардов параметров, не является самой большой моделью с открытым исходным кодом, но она самая большая за последние годы. Обученная с помощью 16 000 графических процессоров Nvidia H100, она также использует новые технологии обучения и разработки, что, по утверждению Meta, делает ее конкурентоспособной с ведущими проприетарными моделями, такими как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic (с некоторыми оговорками).
Как и предыдущие модели Meta, Llama 3.1 405B доступна для загрузки и использования на облачных платформах, таких как AWS, Azure и Google Cloud. Она также используется в WhatsApp и Meta.ai, где на ней работает чат-бот для американских пользователей.
Новое и улучшенное
Как и другие модели генеративного ИИ с открытым и закрытым исходным кодом, Llama 3.1 405B может выполнять целый ряд различных задач, от программирования и ответов на базовые математические вопросы до обобщения документов на восьми языках (английском, немецком, французском, итальянском, португальском, хинди, испанском и тайском). Она работает только с текстом, то есть не может, например, отвечать на вопросы по изображению, но большинство текстовых задач — например, анализ файлов PDF и электронных таблиц — ей по силам.
Meta хочет дать понять, что экспериментирует с мультимодальностью. В опубликованном сегодня документе исследователи компании пишут, что они активно разрабатывают модели Llama, которые могут распознавать изображения и видео, а также понимать (и генерировать) речь. Тем не менее, эти модели еще не готовы к публичному релизу.
Для обучения Llama 3.1 405B компания Meta использовала набор данных из 15 триллионов лексем, полученных до 2024 года (лексемы — это части слов, которые модели легче усваивать, чем целые слова, а 15 триллионов лексем — это умопомрачительные 750 миллиардов слов). Это не новый обучающий набор как таковой, поскольку Meta использовала его для обучения предыдущих моделей Llama, но компания утверждает, что при разработке этой модели она усовершенствовала свои конвейеры курации данных и приняла «более строгие» подходы к обеспечению качества и фильтрации данных.
Компания также использовала синтетические данные (данные, сгенерированные другими моделями ИИ) для тонкой настройки Llama 3.1 405B. Большинство крупных поставщиков ИИ, включая OpenAI и Anthropic, изучают возможности применения синтетических данных для расширения масштабов обучения ИИ, однако некоторые эксперты считают, что синтетические данные должны использоваться в последнюю очередь из-за их потенциальной возможности усилить погрешность модели.
В свою очередь, Meta настаивает на том, что «тщательно взвешивает» обучающие данные Llama 3.1 405B, но отказалась сообщить, откуда именно они были взяты (кроме веб-страниц и общедоступных веб-файлов). Многие производители генеративного ИИ рассматривают обучающие данные как конкурентное преимущество и поэтому держат их и любую информацию, относящуюся к ним, под замком. Но детали данных обучения также являются потенциальным источником судебных исков, связанных с интеллектуальной собственностью, что является еще одним сдерживающим фактором для компаний, не желающих раскрывать много информации.
В вышеупомянутой статье исследователи Meta пишут, что по сравнению с предыдущими моделями Llama, Llama 3.1 405B обучалась на большем количестве неанглийских данных (для улучшения работы с неанглийскими языками), большем количестве «математических данных» и кода (для улучшения навыков математического мышления модели) и последних веб-данных (для улучшения знаний о текущих событиях).
Недавний репортаж Reuters показал, что Meta в какой-то момент использовала для обучения ИИ электронные книги, защищенные авторским правом, несмотря на предупреждения своих юристов. Кроме того, компания обучает свой ИИ на постах, фотографиях и подписях в Instagram и Facebook, и пользователям сложно отказаться от этого. Более того, Meta, наряду с OpenAI, является предметом судебного иска, поданного авторами, в том числе комедиантом Сарой Сильверман, по поводу предполагаемого несанкционированного использования компаниями данных, защищенных авторским правом, для обучения моделей.
«Обучающие данные во многих отношениях являются своего рода секретным рецептом и соусом, который используется для построения этих моделей», — сказал в интервью TechCrunch Рагаван Шринивасан, вице-президент по управлению программами искусственного интеллекта в Meta. «С нашей точки зрения, мы вложили в это много средств. И это будет одна из тех вещей, которые мы будем продолжать совершенствовать».
Больше контекста и инструментов
Llama 3.1 405B имеет большее контекстное окно, чем предыдущие модели Llama: 128,000 лексем, что примерно соответствует объему 50-страничной книги. Контекст модели, или контекстное окно — это входные данные (например, текст), которые модель рассматривает перед тем, как сгенерировать выходные данные (например, дополнительный текст).
Одно из преимуществ моделей с большим контекстом заключается в том, что они могут обобщать длинные фрагменты текста и файлы. При использовании в чат-ботах такие модели также с меньшей вероятностью забудут темы, которые недавно обсуждались.
Две другие новые, более компактные модели, представленные сегодня Meta, Llama 3.1 8B и Llama 3.1 70B — обновленные версии моделей Llama 3 8B и Llama 3 70B, выпущенных компанией в апреле, — также имеют контекстные окна на 128,000 токенов. В предыдущих моделях контекст составлял не более 8,000 токенов, что делает это обновление довольно существенным — при условии, что новые модели Llama смогут эффективно рассуждать на основе всего этого контекста.
Все модели Llama 3.1 могут использовать сторонние инструменты, приложения и API для выполнения задач, как и конкурирующие модели от Anthropic и OpenAI. Из коробки они обучены использовать Brave Search для ответов на вопросы о последних событиях, Wolfram Alpha API для математических и научных запросов, а также интерпретатор Python для проверки кода. Кроме того, Meta утверждает, что модели Llama 3.1 могут использовать некоторые инструменты, с которыми они раньше не сталкивались — в определенной степени.
Создание экосистемы
Если верить бенчмаркам (а бенчмарки — это не главное в генеративном ИИ), Llama 3.1 405B — действительно очень способная модель. Это неплохо, учитывая некоторые до боли очевидные недостатки моделей Llama предыдущего поколения.
Llama 3 405B работает наравне с GPT-4 от OpenAI и показывает «смешанные результаты» по сравнению с GPT-4o и Claude 3.5 Sonnet, по мнению нанятых Meta людей, отмечается в статье. Хотя Llama 3 405B лучше выполняет код и генерирует графики, чем GPT-4o, ее многоязыковые возможности в целом слабее, и Llama 3 405B отстает от Claude 3.5 Sonnet в программировании и общих рассуждениях.
Кроме того, из-за своего размера она нуждается в мощном оборудовании для работы. Meta рекомендует как минимум серверную ноду.
Возможно, именно поэтому Meta продвигает свои более компактные новые модели, Llama 3.1 8B и Llama 3.1 70B, для приложений общего назначения, таких как чат-боты или генерация кода. Llama 3.1 405B, по словам компании, больше подходит для дистилляции моделей — процесса передачи знаний из большой модели в меньшую, более эффективную модель — и создания синтетических данных для обучения (или тонкой настройки) альтернативных моделей.
Чтобы стимулировать использование синтетических данных, Meta сообщила, что обновила лицензию Llama, позволяющую разработчикам использовать результаты семейства моделей Llama 3.1 для создания генеративных моделей ИИ сторонних производителей (целесообразно ли это — вопрос спорный). Важно отметить, что лицензия по-прежнему ограничивает возможности разработчиков по развертыванию моделей Llama. Разработчики приложений с более чем 700 миллионами ежемесячных пользователей должны запросить у Meta специальную лицензию, которую компания предоставит по своему усмотрению.
Это изменение в лицензировании выходных данных, которое снимает основную критику моделей Meta в сообществе ИИ, является частью агрессивного продвижения компании в области генеративного ИИ.
Вместе с семейством Llama 3.1 Meta выпускает так называемую «референсную систему» и новые инструменты безопасности — некоторые из них блокируют подсказки, которые могут заставить модели Llama вести себя непредсказуемо или нежелательно, — чтобы побудить разработчиков использовать Llama в большем количестве мест. Кроме того, компания предварительно анонсирует и запрашивает комментарии по Llama Stack — готовящемуся API для инструментов, которые можно использовать для точной настройки моделей Llama, создания синтетических данных с помощью Llama и создания приложений-агентов — приложений на базе Llama, которые могут предпринимать действия от имени пользователя.
«Мы неоднократно слышали от разработчиков, что они хотят узнать, как развернуть модели Llama в продакшене», — говорит Шринивасан. «Поэтому мы пытаемся предоставить им множество различных инструментов и возможностей».
Игра за долю рынка
В открытом письме, опубликованном сегодня утром, генеральный директор Meta Марк Цукерберг изложил видение будущего, в котором инструменты и модели ИИ попадут в руки большего числа разработчиков по всему миру, обеспечивая людям доступ к «преимуществам и возможностям» ИИ.
Это очень бескорыстная формулировка, но в письме Цукерберг выражает желание, чтобы эти инструменты и модели были созданы Meta.
Meta стремится догнать такие компании, как OpenAI и Anthropic, и использует проверенную стратегию: бесплатно раздавать инструменты для развития экосистемы, а затем постепенно добавлять продукты и услуги, в том числе платные. Затрачивая миллиарды долларов на модели, которые затем можно сделать товарными, компания снижает цены конкурентов и широко распространяет свою версию ИИ. Кроме того, это позволяет компании включать улучшения от сообщества разработчиков с открытым исходным кодом в свои будущие модели.
Llama, безусловно, привлекает внимание разработчиков. Meta утверждает, что модели Llama были загружены более 300 миллионов раз, и на данный момент создано более 20 000 моделей, основанных на Llama.
Но не стоит заблуждаться, Meta играет на удержание. Она тратит миллионы на лоббирование регулирующих органов, чтобы те согласились с предпочитаемой ею разновидностью «открытого» генеративного ИИ. Ни одна из моделей Llama 3.1 не решает трудноразрешимых проблем современных технологий генеративного ИИ, таких как их склонность к галлюцинациям и повторному использованию проблемных обучающих данных. Но они способствуют достижению одной из ключевых целей Meta: стать синонимом генеративного ИИ.
За это приходится платить. В исследовательской работе соавторы, вторя недавним комментариям Цукерберга, обсуждают проблемы надежности, связанные с энергопотреблением, при обучении постоянно растущих моделей генеративного ИИ Meta.
«Во время обучения десятки тысяч графических процессоров могут одновременно увеличивать или уменьшать энергопотребление, например, из-за того, что все GPU ожидают завершения контрольной точки или коллективного обмена данными, запуска или выключения всего задания обучения», — пишут они. «Когда такое происходит, это может привести к мгновенным колебаниям энергопотребления по всему центру обработки данных порядка десятков мегаватт, что приводит к ограничению возможностей энергосистемы. Это постоянная проблема для нас, поскольку мы масштабируем обучение для будущих, еще более крупных моделей Llama».