Новости
Google выпускает Gemma 3n
После предварительного просмотра в прошлом месяце на Google I/O, полная версия теперь здесь и готова к запуску непосредственно на вашем оборудовании.
Google анонсировал Gemma 3n, следующее поколение своих открытых моделей ИИ, и это значительный шаг вперед по сравнению с тем, что мы видели ранее. После предварительного просмотра в прошлом месяце на Google I/O, полная версия теперь здесь и готова к запуску непосредственно на вашем оборудовании.
Gemma — это семейство открытых моделей ИИ. Они отличаются от Gemini тем, что разработаны для загрузки и изменения разработчиками, в то время как Gemini — это закрытая, проприетарная мощная система Google.
Теперь модель может нативно обрабатывать входные данные, такие как изображения, аудио и видео, для генерации текста, что является большим шагом вперед по сравнению с просто текстовой моделью. Она также может работать на оборудовании с памятью всего 2 ГБ и, как предполагается, лучше справляется с такими задачами, как программирование и рассуждение. Вот полный список улучшений, описанных Google:
- Мультимодальная по своей сути: Gemma 3n изначально поддерживает входные данные в виде изображений, аудио, видео и текста, а также текстовые выходы.
- Оптимизировано для использования на устройстве: разработанные с упором на эффективность, модели Gemma 3n доступны в двух размерах на основе эффективных параметров: E2B и E4B. Хотя их количество исходных параметров составляет 5B и 8B соответственно, архитектурные инновации позволяют им работать с объемом памяти, сопоставимым с традиционными моделями 2B и 4B, работая всего с 2 ГБ (E2B) и 3 ГБ (E4B) памяти.
- Революционная архитектура: в своей основе Gemma 3n включает новые компоненты, такие как архитектура MatFormer для гибкости вычислений, Per Layer Embeddings (PLE) для эффективности памяти и новые аудио и видеокодеры на базе MobileNet-v5, оптимизированные для использования на устройстве.
- Улучшенное качество: Gemma 3n обеспечивает улучшение качества в многоязычности (поддержка 140 языков для текста и мультимодального понимания 35 языков), математике, кодировании и рассуждениях.
Основой эффективности новой модели является новая архитектура, которую Google называет MatFormer. Google использует аналогию с русской матрешкой, чтобы описать ее: более крупная модель содержит внутри меньшую, полностью функциональную версию.
Это позволяет одной модели работать в разных размерах для разных задач. А что касается бенчмарков, то более крупная модель E4B является первой моделью с параметрами 10B, которая преодолела оценку LMArena в 1300.
Звуковые возможности модели теперь поддерживают преобразование речи в текст на устройстве и перевод с использованием кодировщика, который может обрабатывать речь в мельчайших деталях. Зрительная сторона основана на новом кодировщике под названием MobileNet-V5, который намного быстрее и эффективнее своего предшественника. Он может обрабатывать видео со скоростью до 60 кадров в секунду на устройстве Google Pixel.
Если вам интересно, вы можете начать работать с моделями немедленно, поскольку модели доступны на знакомых платформах, таких как Hugging Face и Kaggle, и вы даже можете экспериментировать с ними непосредственно в Google AI Studio.
Более подробную информацию можно найти в официальном сообщении.
-
Видео и подкасты для разработчиков3 недели назад
Пагинация: от идеи до реализации
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2025.25
-
Видео и подкасты для разработчиков3 недели назад
История, принципы и концепции библиотеки навигации Decompose
-
Исследования3 недели назад
Bidease: мобильный маркетинг 2025 — баланс AI, удержания и конфиденциальности