Site icon AppTractor

Google представил Gemma 4 12B, унифицированную открытую многомодальную модель

Сегодня Google представил Gemma 4 12B, новейшую модель, разработанную для внедрения многомодального интеллекта в работу ноутбуков. Занимая промежуточное положение между оптимизированной для периферийных устройств моделью E4B и более продвинутой моделью 26B Mixture of Experts (MoE), Gemma 4 12B объединяет мощные возможности в уменьшенном объеме памяти. Это также первая модель среднего размера с встроенными аудиовходами.

Вот краткий обзор того, что делает Gemma 4 12B уникальной:

Вместе эти функции обеспечивают расширенные многомодальные возможности на обычном оборудовании без ущерба для скорости или логики.

Запуск современных агентов локально

Gemma 4 12B обеспечивает производительность, приближающуюся к более крупной модели MoE с 26 ГБ памяти, в стандартных тестах, но при этом занимает менее половины общего объема памяти. Достаточна компактна для локальной работы на потребительских ноутбуках с 16 ГБ оперативной памяти, она открывает мощные многомодальные и агентские возможности прямо на вашем компьютере.

Оцените уникально эффективную, унифицированную архитектуру

Главное преимущество Gemma 4 12B — это оптимизированный подход к обработке визуальных и аудио входных данных. Традиционные мультимодальные модели обычно используют отдельные кодировщики для преобразования изображений и аудио перед передачей этих представлений в языковую модель. Поскольку эти разделенные кодировщики увеличивают задержку и потребление памяти, в Google обучили Gemma 4 12B с использованием архитектуры без кодировщиков для прямой интеграции аудио- и видеовходных данных.

Вот как Gemma 4 12B обрабатывает мультимодальные входные данные нативно:

Разработчикам, желающим получить подробный разбор, следует обратиться к руководству для разработчиков Gemma 4 12B.

Начните сегодня

Попробуйте сами: поэкспериментируйте с помощью нескольких кликов в LM StudioOllamaGoogle AI Edge Gallery App, приложении Google AI Edge Eloquent и CLI LiteRT-LM.

Загрузите веса: загрузите предварительно обученные и настроенные по инструкциям контрольные точки непосредственно из Hugging Face и Kaggle.

Интегрируйте и учитесь: ознакомьтесь с документацией для разработчиков и блокнотом быстрого старта.

Раскройте потенциал разработки агентов с помощью навыков Gemma: чтобы помочь агентам создавать модели с использованием последних достижений Gemma, в Google выпустили официальный репозиторий навыков. Это библиотека навыков, разработанная специально для того, чтобы агенты могли использовать модели Gemma в разработке.

Развертывайте по-своему: запускайте конечные точки в производственной среде с помощью Google Cloud. Развертывайте свои приложения с помощью Gemini Enterprise Agent Platform Model Garden, Cloud Run и GKE.

Exit mobile version