Новости
Mistral AI открыла свою первую большую языковую модель
Mistral 7B является дальнейшим усовершенствованием других «малых» больших языковых моделей, предлагая аналогичные возможности при значительно меньших вычислительных затратах.
Самые популярные языковые модели могут быть доступны через API, но открытые модели — насколько этот термин можно использовать в этой области — набирают обороты. Французская компания Mistral, специализирующаяся на разработке искусственного интеллекта и привлекшая в июне крупный раунд начального финансирования, только что представила свою первую модель, которая, по ее утверждению, превосходит другие модели такого же масштаба — и при этом ее можно использовать совершенно бесплатно и без ограничений.
Модель Mistral 7B уже сегодня доступна для загрузки различными способами, включая торрент объемом 13.4 Гбайт (его раздают уже несколько сотен пользователей). Компания также запустила репозиторий GitHub и канал Discord для совместной работы и устранения неполадок.
Что особенно важно, модель выпущена под лицензией Apache 2.0, которая не имеет ограничений на использование и воспроизведение, кроме указания авторства. Это означает, что модель может быть использована и любителем, и многомиллиардной корпорацией — при условии, что у них есть система, способная работать с ней локально, или они готовы оплатить необходимые облачные ресурсы.
Mistral 7B является дальнейшим усовершенствованием других «малых» больших языковых моделей, таких как Llama 2, предлагая аналогичные возможности (согласно некоторым стандартным бенчмаркам) при значительно меньших вычислительных затратах. Фундаментальные модели, такие как GPT-4, способны на гораздо большее, но гораздо более дороги и сложны в исполнении, что вынуждает предоставлять их исключительно через API или через удаленный доступ.
«Наша цель — стать ведущим сторонником сообщества открытого генеративного ИИ и довести открытые модели до уровня современной производительности», — пишет команда Mistral в посте, сопровождающем выпуск модели. «Производительность Mistral 7B демонстрирует, что могут сделать небольшие модели при достаточной усердии. Это результат трех месяцев напряженной работы, в ходе которой мы собрали команду ИИ в Mistral, перестроили высокопроизводительный стек MLops и разработали сложнейший конвейер обработки данных с нуля».
Для кого-то (возможно, для большинства) этот список может показаться очень большим для трехмесячной работой, но у основателей была фора: они работали над аналогичными моделями в Meta* и Google DeepMind. Это, конечно, не облегчает задачу, но, по крайней мере, они знали, что делают.
Конечно, хотя модель может скачать и использовать каждый желающий, это совсем не то же самое, что «открытый исходный код» или другие разновидности этого термина. Несмотря на то, что лицензия является весьма разрешительной, сама модель была разработана в частном порядке, на частные деньги, и наборы данных и весовые коэффициенты также являются закрытыми.
Именно в этом, по-видимому, и заключается бизнес-модель Mistral. Бесплатную модель можно использовать бесплатно, но если вы захотите углубиться, то вам понадобится платный продукт. «Наше коммерческое предложение будет распространяться в виде white-box решений, при этом будут доступны как веса, так и исходники кода. Мы активно работаем над хостинговыми решениями и специализированным развертыванием для предприятий», — говорится в сообщении в блоге.