Компания Nvidia выпустила мощную модель искусственного интеллекта с открытым исходным кодом, которая конкурирует с проприетарными системами таких лидеров индустрии, как OpenAI и Google.
Новое семейство больших мультимодальных языковых моделей NVLM 1.0, возглавляемое NVLM-D-72B с 72 миллиардами параметров, демонстрирует исключительную производительность в задачах зрения и языка, а также расширяет возможности работы только с текстом.
«Мы представляем NVLM 1.0, семейство мультимодальных больших языковых моделей передового класса, которые достигают самых современных результатов в задачах видения и языка, конкурируя с ведущими собственными моделями (например, GPT-4o) и моделями с открытым доступом», — объясняют исследователи в своей статье.
Сделав весовые коэффициенты моделей общедоступными и пообещав выпустить обучающий код, Nvidia отказалась от тенденции держать передовые ИИ-системы в закрытом доступе. Это решение открывает исследователям и разработчикам беспрецедентный доступ к передовым технологиям».
Модель NVLM-D-72B демонстрирует впечатляющую адаптивность при обработке сложных визуальных и текстовых данных. Исследователи привели примеры, которые подчеркивают способность модели интерпретировать мемы, анализировать изображения и решать математические задачи шаг за шагом.
Примечательно, что после мультимодального обучения NVLM-D-72B улучшает свои показатели при выполнении только текстовых задач. В то время как у многих аналогичных моделей наблюдается снижение производительности при работе с текстом, NVLM-D-72B увеличил свою точность в среднем на 4.3 балла в ключевых текстовых тестах.
«Наша модель NVLM-D-1.0-72B демонстрирует значительный прирост по сравнению со своей текстовой основой в текстовых математических задачах и задачах программирования», — отмечают исследователи, подчеркивая ключевое преимущество своего подхода.
ИИ-сообщество положительно отреагировало на релиз. Один из ИИ-исследователей, комментируя в социальных сетях, заметил: «Вау! Nvidia только что опубликовала 72B модель, которая по математическим и программным испытаниям находится на одном уровне с llama 3.1 405B, а также обладает зрением».
Решение Nvidia выложить в открытый доступ такую мощную модель может ускорить исследования и разработки в области ИИ во всем мире. Предоставив доступ к модели, которая конкурирует с закрытыми системами хорошо финансируемых технологических компаний, Nvidia может позволить небольшим организациям и независимым исследователям внести более существенный вклад в развитие ИИ.
Проект NVLM также представляет инновационные архитектурные решения, в том числе гибридный подход, сочетающий различные мультимодальные технологии обработки. Эти разработки могут определить направление будущих исследований в данной области.
Выпуск NVLM 1.0 компанией Nvidia знаменует собой поворотный момент в развитии ИИ. Выкладывая в открытый доступ модель, конкурирующую с гигантами, Nvidia не просто делится кодом — она бросает вызов самой структуре индустрии ИИ.
Этот шаг может вызвать цепную реакцию. Другие технологические лидеры могут почувствовать давление, чтобы открыть свои исследования, что потенциально ускорит прогресс ИИ во всем мире. Кроме того, это выровняет игровое поле, позволив небольшим командам и исследователям внедрять инновации с помощью инструментов, которые раньше были доступны только технологическим гигантам.
Однако выход NVLM 1.0 не лишен рисков. По мере того как мощный ИИ становится все более доступным, опасения по поводу нецелевого использования и этических последствий будут расти. Сейчас перед сообществом ИИ стоит сложная задача — поощрять инновации и одновременно устанавливать ограничения для ответственного использования.
Решение Nvidia также поднимает вопросы о будущем бизнес-моделей ИИ. Если самые современные модели станут свободно доступными, компаниям, возможно, придется переосмыслить способы создания ценности и сохранения конкурентных преимуществ в сфере ИИ.
Истинное влияние NVLM 1.0 проявится в ближайшие месяцы и годы. Возможно, он откроет эру беспрецедентного сотрудничества и инноваций в области ИИ. Или же он заставит задуматься о непредвиденных последствиях широкого доступа к продвинутому ИИ.
Вопрос теперь не в том, изменится ли ландшафт, а в том, насколько кардинально — и кто сможет достаточно быстро адаптироваться, чтобы процветать в этом новом мире открытого ИИ.