Новости

Google выпускает Gemma 3n

После предварительного просмотра в прошлом месяце на Google I/O, полная версия теперь здесь и готова к запуску непосредственно на вашем оборудовании.

Опубликовано

11 месяцев назад

27.06.2025

Автор:

AppTractor

Google анонсировал Gemma 3n, следующее поколение своих открытых моделей ИИ, и это значительный шаг вперед по сравнению с тем, что мы видели ранее. После предварительного просмотра в прошлом месяце на Google I/O, полная версия теперь здесь и готова к запуску непосредственно на вашем оборудовании.

Gemma — это семейство открытых моделей ИИ. Они отличаются от Gemini тем, что разработаны для загрузки и изменения разработчиками, в то время как Gemini — это закрытая, проприетарная мощная система Google.

Теперь модель может нативно обрабатывать входные данные, такие как изображения, аудио и видео, для генерации текста, что является большим шагом вперед по сравнению с просто текстовой моделью. Она также может работать на оборудовании с памятью всего 2 ГБ и, как предполагается, лучше справляется с такими задачами, как программирование и рассуждение. Вот полный список улучшений, описанных Google:

Мультимодальная по своей сути: Gemma 3n изначально поддерживает входные данные в виде изображений, аудио, видео и текста, а также текстовые выходы.
Оптимизировано для использования на устройстве: разработанные с упором на эффективность, модели Gemma 3n доступны в двух размерах на основе эффективных параметров: E2B и E4B. Хотя их количество исходных параметров составляет 5B и 8B соответственно, архитектурные инновации позволяют им работать с объемом памяти, сопоставимым с традиционными моделями 2B и 4B, работая всего с 2 ГБ (E2B) и 3 ГБ (E4B) памяти.
Революционная архитектура: в своей основе Gemma 3n включает новые компоненты, такие как архитектура MatFormer для гибкости вычислений, Per Layer Embeddings (PLE) для эффективности памяти и новые аудио и видеокодеры на базе MobileNet-v5, оптимизированные для использования на устройстве.
Улучшенное качество: Gemma 3n обеспечивает улучшение качества в многоязычности (поддержка 140 языков для текста и мультимодального понимания 35 языков), математике, кодировании и рассуждениях.

Основой эффективности новой модели является новая архитектура, которую Google называет MatFormer. Google использует аналогию с русской матрешкой, чтобы описать ее: более крупная модель содержит внутри меньшую, полностью функциональную версию.

Это позволяет одной модели работать в разных размерах для разных задач. А что касается бенчмарков, то более крупная модель E4B является первой моделью с параметрами 10B, которая преодолела оценку LMArena в 1300.

Звуковые возможности модели теперь поддерживают преобразование речи в текст на устройстве и перевод с использованием кодировщика, который может обрабатывать речь в мельчайших деталях. Зрительная сторона основана на новом кодировщике под названием MobileNet-V5, который намного быстрее и эффективнее своего предшественника. Он может обрабатывать видео со скоростью до 60 кадров в секунду на устройстве Google Pixel.

Если вам интересно, вы можете начать работать с моделями немедленно, поскольку модели доступны на знакомых платформах, таких как Hugging Face и Kaggle, и вы даже можете экспериментировать с ними непосредственно в Google AI Studio.

Более подробную информацию можно найти в официальном сообщении.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.