Google представил Gemma 4 12B, унифицированную открытую многомодальную модель

AppTractor

2 месяца назад

Сегодня Google представил Gemma 4 12B, новейшую модель, разработанную для внедрения многомодального интеллекта в работу ноутбуков. Занимая промежуточное положение между оптимизированной для периферийных устройств моделью E4B и более продвинутой моделью 26B Mixture of Experts (MoE), Gemma 4 12B объединяет мощные возможности в уменьшенном объеме памяти. Это также первая модель среднего размера с встроенными аудиовходами.

Вот краткий обзор того, что делает Gemma 4 12B уникальной:

Новая унифицированная архитектура: Отсутствие многомодальных кодировщиков. Визуальные и аудиовходы напрямую поступают в магистраль LLM.
Расширенные возможности логического мышления: Производительность, приближающаяся к показателям модели 26B, открывает доступ к мощным многошаговым логическим рассуждениям и рабочим процессам, основанным на работе агентов.
Готовность к работе на ноутбуках: Достаточно компактна для локальной работы всего с 16 ГБ видеопамяти или унифицированной памяти.
Открытая и доступная: Выпущена под лицензией Apache 2.0 с поддержкой всей экосистемы разработчиков.
Drafter-ready: Gemma 4 12B оснащена Multi-Token Prediction (MTP) драфтерами для снижения задержки.

Вместе эти функции обеспечивают расширенные многомодальные возможности на обычном оборудовании без ущерба для скорости или логики.

Запуск современных агентов локально

Gemma 4 12B обеспечивает производительность, приближающуюся к более крупной модели MoE с 26 ГБ памяти, в стандартных тестах, но при этом занимает менее половины общего объема памяти. Достаточна компактна для локальной работы на потребительских ноутбуках с 16 ГБ оперативной памяти, она открывает мощные многомодальные и агентские возможности прямо на вашем компьютере.

Оцените уникально эффективную, унифицированную архитектуру

Главное преимущество Gemma 4 12B — это оптимизированный подход к обработке визуальных и аудио входных данных. Традиционные мультимодальные модели обычно используют отдельные кодировщики для преобразования изображений и аудио перед передачей этих представлений в языковую модель. Поскольку эти разделенные кодировщики увеличивают задержку и потребление памяти, в Google обучили Gemma 4 12B с использованием архитектуры без кодировщиков для прямой интеграции аудио- и видеовходных данных.

Вот как Gemma 4 12B обрабатывает мультимодальные входные данные нативно:

Зрение: Заменили кодировщик визуализации Gemma 4 на облегченный модуль эмбеддинга, состоящий из одного матричного умножения, позиционного встраивания и нормализации. Это позволяет базовой архитектуре LLM взять на себя обработку визуальных данных.
Аудио: Еще больше упростили обработку аудио. Полностью удалили аудиокодировщик и спроецировали необработанный аудиосигнал в то же размерное пространство, что и текстовые токены.

Разработчикам, желающим получить подробный разбор, следует обратиться к руководству для разработчиков Gemma 4 12B.

Начните сегодня

Попробуйте сами: поэкспериментируйте с помощью нескольких кликов в LM Studio, Ollama, Google AI Edge Gallery App, приложении Google AI Edge Eloquent и CLI LiteRT-LM.

Загрузите веса: загрузите предварительно обученные и настроенные по инструкциям контрольные точки непосредственно из Hugging Face и Kaggle.

Интегрируйте и учитесь: ознакомьтесь с документацией для разработчиков и блокнотом быстрого старта.

Раскройте потенциал разработки агентов с помощью навыков Gemma: чтобы помочь агентам создавать модели с использованием последних достижений Gemma, в Google выпустили официальный репозиторий навыков. Это библиотека навыков, разработанная специально для того, чтобы агенты могли использовать модели Gemma в разработке.

Развертывайте по-своему: запускайте конечные точки в производственной среде с помощью Google Cloud. Развертывайте свои приложения с помощью Gemini Enterprise Agent Platform Model Garden, Cloud Run и GKE.