Разработка

Google представил революционную модель Gemini 3.5 Flash

Опубликовано

2 месяца назад

20.05.2026

Автор:

Google представил Gemini 3.5 Flash — новую модель искусственного интеллекта, заточенную на агентов и программирование, которая, по словам компании, разрушает, казалось бы, незыблемый закон индустрии ИИ: самые умные модели должны быть также самыми медленными и дорогими в эксплуатации.

Модель находится в центре целого ряда анонсов — от модели «мира», генерирующей видео, под названием Gemini Omni, до круглосуточного персонального ИИ-агента Gemini Spark — но 3.5 Flash, пожалуй, имеет самые непосредственные последствия для предприятий, вкладывающих миллиарды долларов в ИИ-инфраструктуру . Сундар Пичаи, генеральный директор Google, заявил журналистам на пресс-конференции в понедельник, что компании, обрабатывающие около триллиона токенов в день в Google Cloud, могут сэкономить более 1 миллиарда долларов в год, переведя 80% своих рабочих нагрузок на сочетание Flash и других передовых моделей.

Если это утверждение подтвердится, оно станет одним из самых значительных сдвигов в экономике корпоративного ИИ с тех пор, как большие языковые модели появились в корпоративных вычислительных системах.

Google представил революционную модель Gemini 3.5 Flash

Канал Дениса Ширяева

Почему предприятиям приходится выбирать между качеством и скоростью

В течение последних трех лет организации, внедряющие генеративный ИИ, сталкивались с болезненным компромиссом. Наиболее эффективные модели — те, которые могут рассуждать над сложными многоэтапными задачами, писать надежный код и анализировать объемные финансовые документы — как правило, большие, медленные и дорогие в обработке запросов. Более быстрые и дешевые модели жертвуют точностью. ИТ-директорам приходится заниматься своего рода управлением портфелем ИИ: направлять простые запросы к легковесным моделям и оставлять мощные механизмы рассуждений для задач с высокими ставками. Это сложная, ненадежная система, которая увеличивает инженерные издержки и часто обеспечивает непоследовательный пользовательский опыт.

Gemini 3.5 Flash напрямую компенсирует этот компромисс. Согласно внутренним тестам Google и анализу сторонней компании Artificial Analysis, эта модель превосходит собственную модель Google Gemini 3.1 Pro — модель, которую компания позиционировала как свой флагман высшего уровня всего четыре-пять месяцев назад — почти по всем основным тестам. Она набирает 76,2% в Terminal-Bench 2.1, достигает 1656 Elo в GDPval-AA, 83,6% в MCP Atlas и лидирует в многомодальном понимании с результатом 84,2% в CharXiv Reasoning.

И все это при том, что она генерирует выходные токены в четыре раза быстрее, чем сопоставимые модели конкурентов. Корай Кавукчуоглу, главный технический директор Google DeepMind и главный архитектор ИИ в Google, сообщил журналистам, что команда продвинулась еще дальше: «Мы разработали еще более оптимизированную версию Flash, не просто в четыре раза, а в 12 раз быстрее, при том же качестве». Эта турбо-версия станет доступна со вторника в Antigravity, платформе работы и разработки агентов от Google.

Пичай прямолинейно охарактеризовал разрыв в производительности: «модель Flash 3.5 лучше, чем 3.1 Pro, который вышла всего четыре месяца назад, и она достигает 90% производительности передовых моделей, она в 4 раза быстрее, намного быстрее в Antigravity, может быть, в 12 раз, и стоит примерно в 1/3 или 1/2 меньше».

Занимая место в том, что Artificial Analysis называет «верхним правым квадрантом» своего индекса интеллекта против скорости — единственная модель, которая это делает, — Flash занимает позицию, которую в настоящее время не занимает ни один конкурент.

Математика токенов, лежащая в основе заявления Google об экономии в 1 миллиарда долларов

Чтобы понять, почему Flash так важен для корпоративных покупателей, необходимо разобраться в экономике токенов — основных единиц данных, обрабатываемых моделями ИИ. Каждый запрос, на который отвечает чат-бот службы поддержки клиентов, каждый юридический документ, который резюмирует ИИ, каждая строка кода, написанная агентом, потребляет токены. И при ценах, характерных для передовых моделей, эти токены быстро накапливаются.

Google заявляет, что его API теперь обрабатывают около 19 миллиардов токенов в минуту. На всех собственных платформах Google — Поиск, приложение Gemini, Workspace и других — компания обрабатывает более 3,2 квадриллионов токенов в месяц, и эта цифра выросла в семь раз только за последний год. Два года назад, на I/O 2024, это число составляло 9,7 триллионов в месяц.

Взрыв потребления токенов не является уникальным явлением для Google. Предприятия в различных отраслях обнаруживают, что чем больше они развертывают ИИ, тем больше токенов они сжигают. Агентные рабочие процессы — когда системы ИИ автономно выполняют многоэтапные задачи, вызывают инструменты, пишут и запускают код, а также итеративно улучшают свои собственные результаты — особенно требовательны к токенам. Одна сессия агентного кодирования может потреблять на порядки больше токенов, чем простой обмен вопросами и ответами.

Именно здесь преимущество Flash в стоимости становится революционным. Эта модель предоставляет, по словам Google, возможности передового уровня по цене менее чем вдвое, а в некоторых случаях почти втрое, ниже, чем у сопоставимых моделей передового уровня. Для гипотетического предприятия, обрабатывающего один триллион токенов в день в Google Cloud — масштаб, которого, по словам Пичаи, уже достигают ведущие клиенты, — экономия от переноса 80% рабочих нагрузок на сочетание Flash и передовых технологий превысит 1 миллиард долларов в год.

Это не погрешность округления. Это тот тип показателей, который меняет решения о закупках, ускоряет сроки внедрения и коренным образом меняет расчет рентабельности инвестиций в инициативы в области ИИ, которые многие советы директоров изучают с возрастающим нетерпением.

Как собственные инженеры Google создали «маховик данных»

Пожалуй, наиболее стратегически важной деталью, которой Google поделилась во вторник, был не показатель производительности или цена. Это был график, показывающий собственное внутреннее потребление токенов компанией на Antigravity 2.0, своей переосмысленной платформе разработки агентских систем.

В марте 2026 года разработчики Google обрабатывали примерно полтриллиона токенов в день внутри Antigravity. К моменту выхода анонса в середине мая эта цифра превысила три триллиона — шестикратное увеличение примерно за десять недель, при этом использование удваивалось «буквально каждые несколько недель», по словам Пичаи.

Это внутреннее использование создает то, что исследователи ИИ называют «маховиком данных»: чем больше собственные инженеры Google используют Flash 3.5 для создания продуктов, тем больше реальных сигналов собирает команда разработчиков модели о том, в чем модель преуспевает, а в чем терпит неудачу. Этот сигнал способствует улучшению модели, что делает её более полезной, что, в свою очередь, стимулирует её использование и генерирует ещё больше сигнала. Это замкнутый цикл, который конкурирующие лаборатории ИИ, полагающиеся в основном на использование сторонних разработчиков и синтетические тесты, не могут легко воспроизвести с той же скоростью и точностью.

«Такой масштаб создаёт мощную обратную связь, и именно это позволило нам продолжать улучшать модели серии 3.5», — сказал Пичай.

Во время сессии вопросов и ответов Пичай признал, что ситуация на рынке «очень динамична» и «быстро меняется», но выразил уверенность в масштабах деятельности Google. Он добавил, что в серии 3.5 компания сосредоточилась на «улучшении интеллекта модели, обеспечении эффективного использования инструментов, следования инструкциям, сценариев использования в долгосрочной перспективе, декодирования агентами».

Кавукчуоглу подчеркнул акцент на агентном подходе, отметив, что 3.5 Flash «теперь может обрабатывать многочасовые автономные сессии» и «может самостоятельно выполнять сложные конвейеры кодирования или управлять итеративными исследовательскими проектами». По его словам, команда даже протестировала модель, заставив агентов создать работающую операционную систему с нуля.

Antigravity 2.0 превращает редактор кода Google в центр управления агентами

Выход 3.5 Flash тесно связан с запуском Antigravity 2.0, значительного расширения платформы разработки агентных систем, впервые представленной Google шесть месяцев назад. То, что начиналось как среда кодирования, превратилось в то, что Google описывает как полноценную платформу для разработки и управления командами автономных агентов ИИ, и компания заявляет, что миллионы разработчиков уже используют её для создания приложений.

Antigravity 2.0 поставляется как новое автономное настольное приложение, которое служит центральным узлом для одновременной работы нескольких агентов. Google привел пример запуска одного агента для написания кода веб-сайта, второго — для генерации фирменных элементов, и третьего — для планирования архитектуры продукта — все параллельно, и все управляется из единого интерфейса. Для разработчиков, предпочитающих работу с командной строкой, существует Antigravity CLI. А для тех, кто создает программные интеграции, новый Antigravity SDK предоставляет прямой доступ к тому же набору инструментов для работы с агентами, который используется в собственных продуктах Google.

Совместная разработка Flash 3.5 и Antigravity 2.0 не случайна. «Мы совместно разработали Flash 3.5 с Google Antigravity, нашей платформой для разработки агентов», — сказал Кавукчуоглу. Эта тесная интеграция означает, что сильные стороны Flash — скорость, использование инструментов, логическое мышление в контексте и генерация кода — специально настроены для тех типов рабочих нагрузок, которые разработчики выполняют внутри платформы.

Google также запускает управляемые агенты в Gemini API, позволяющие разработчикам запускать агента с помощью одного вызова API, который выполняет логическое мышление, использует инструменты и выполняет код в изолированной среде Linux. Компания также представила CodeMender, агента безопасности на основе искусственного интеллекта, который использует передовые методы анализа Gemini для автоматического обнаружения и устранения критических уязвимостей в коде — возможность, которую Кавукчуоглу назвал крайне важной, поскольку агентные системы пишут все большую долю кода в мире.

Инфраструктурные инвестиции и специализированные чипы для ИИ

Модели и платформы основаны на колоссальных инвестициях в инфраструктуру, о которых Пичай рассказал во время брифинга: Google ожидает капитальных затрат в размере приблизительно 180–190 миллиардов долларов в 2026 году — примерно в шесть раз больше, чем 31 миллиард долларов, потраченных компанией в 2022 году, всего четыре года назад.

Ключевым компонентом этих инвестиций являются специализированные процессоры. Компания недавно представила восьмое поколение тензорных процессоров (TPU), впервые применив двухчиповую архитектуру со специализированными решениями для обучения (TPU 80) и вывода (TPU 8i). Google заявляет, что теперь может распределять обучение моделей по нескольким центрам обработки данных с помощью системы Pathways, масштабируясь до более чем одного миллиона TPU по всему миру — система, которая, по утверждению компании, представляет собой крупнейший в мире кластер обучения.

«Это означает обучение более крупных и мощных моделей за недели, а не за месяцы», — сказал Пичай. Преимущество инфраструктуры имеет огромное значение для экономики Flash. Специализированные кремниевые чипы, оптимизированные для инференции, позволяют Google запускать Flash с меньшими затратами на токен, чем конкуренты, использующие универсальные графические процессоры, и эта экономия передается — по крайней мере, частично — клиентам.

Цифра капитальных затрат также указывает на стратегический аспект долгосрочной стратегии Google. В то время как некоторые инвесторы обеспокоены астрономическими суммами, которые облачные провайдеры тратят на инфраструктуру ИИ, Google позиционирует эти расходы как конкурентное преимущество. Чем больше инфраструктуры она строит, тем дешевле она может запускать инференцию, тем привлекательнее становятся ее модели и тем больше возможностей для ее использования для улучшения следующего поколения. Это снова логика маховика, расширенная от программного обеспечения до кремниевых чипов.

Gemini Omni, Spark и потребительские продукты, которые теперь работают на Flash в огромных масштабах

Хотя в истории Flash доминирует тема корпоративных затрат, Google также предпринял масштабные шаги в потребительском сегменте, внедрив эту модель в продукты, которыми пользуются миллиарды людей. Теперь Flash является моделью по умолчанию для приложения Gemini, аудитория которого превысила 900 миллионов ежемесячно активных пользователей, что более чем вдвое больше, чем 400 миллионов годом ранее, а также для режима AI в Google Поиске, который за первый год работы преодолел отметку в один миллиард ежемесячных пользователей.

Google представил Gemini Spark, круглосуточного персонального агента ИИ, работающего на выделенных виртуальных машинах в Google Cloud и функционирующего в фоновом режиме, даже когда устройство пользователя выключено. Spark, работающий на Flash 3.5 с полным набором функций Antigravity, интегрируется с Gmail, Docs, Sheets и Slides. Джош Вудворд, руководитель Google Labs и приложения Gemini, ярко описал этот опыт: «Когда вы используете его, создается ощущение, будто вы перебрасываете предметы через плечо, а Spark их ловит и выполняет работу». Что касается безопасности, Spark требует явного согласия пользователя перед выполнением важных действий. Google также анонсировала протокол Agent Payments Protocol, который позволяет пользователям устанавливать строгие ограничения — одобренные бренды, лимиты расходов, конкретных продавцов — прежде чем агент сможет потратить деньги от их имени. Вудворд сравнил эту систему с «дарением подростку его первой дебетовой карты — вокруг неё есть определённые ограничения и условия».

Наряду с Flash, Google представила Gemini Omni, модель, способную генерировать любой результат из любого входного сигнала, начиная с видео. Кавукчуоглу резко отличbл её от существующей модели Google Veo: «Veo — это модель преобразования текста в видео. Omni — это настоящая multi-model input, multi-model output модель». Весь контент, сгенерированный Omni, имеет водяной знак Google SynthID, и компания объявила, что OpenAI, Kakao и ElevenLabs также внедряют SynthID.

Компания также впервые за более чем 25 лет обновила свою поисковую строку, представила информационных агентов, которые круглосуточно отслеживают веб-пространство на предмет заданных пользователем условий, и запустила Universal Cart — корзину покупок от разных продавцов на основе искусственного интеллекта, созданную на базе Google Wallet. Лиз Рид, руководитель Google Search, назвала новую поисковую строку «самым значительным обновлением нашей культовой поисковой строки с момента ее появления».

Что означает шестимесячный цикл обновления моделей Google

Google дал понять, что 3.5 Flash — это только начало серии 3.5. Gemini 3.5 Pro в настоящее время находится на стадии внутреннего тестирования и будет выпущен для всех в следующем месяце. Кавукчуоглу отметил, что компания работает примерно с шестимесячным циклом обновления крупных моделей — Gemini 3 в ноябре, 3.5 в мае — и ожидает, что этот ритм сохранится.

Когда репортер из The New York Times спросил, как Google определяет, оправдывает ли релиз полный скачок в числовом выражении или прирост на полшага, Кавукчуоглу ответил, что нумерация отражает масштаб прогресса в исследованиях: «Что определяет обновление нумерации, так это прогресс, который мы видим в наших исследованиях, и то, как он отражается в моделях и их влиянии».

Для корпоративных покупателей этот цикл имеет важное значение: кривая соотношения цены и производительности не просто улучшается — она улучшается по предсказуемому графику. Модель, превосходящая предыдущий флагман при стоимости в три раза меньшей каждые шесть месяцев, коренным образом меняет горизонт планирования инвестиций в ИИ. Это означает, что мизерные бюджеты, которые компании тратят сегодня, к концу года могут показаться незначительными.

Анонсы Google появились в момент острой конкуренции. OpenAI, Anthropic, Meta* и множество более мелких лабораторий соревнуются в создании моделей, которые обеспечивают баланс между возможностями и стоимостью. Microsoft активно интегрирует модели OpenAI в Azure и Copilot. Но Google обладает структурным преимуществом, которое легко упустить из виду: распространение. Имея 13 продуктов, обслуживающих более миллиарда пользователей каждый — пять из которых превышают три миллиарда — Google может развернуть Flash для аудитории, с которой не может сравниться ни одна специализированная лаборатория ИИ. Каждое улучшение немедленно приносит пользу Поиску, Gmail, Документам, Картам и YouTube. А данные об использовании, поступающие от этих миллиардов взаимодействий, подпитывают тот самый маховик, который делает следующую модель лучше.

Теперь вопрос в том, выдержит ли заявленная экономия в 1 миллиард долларов — впечатляющий прогноз, основанный на конкретном сочетании рабочих нагрузок, — проверку в условиях сложной реальности внедрения ИИ в корпорациях, где устаревшие системы, требования соответствия и организационная инерция способны сгладить даже самые убедительные кривые затрат. Но если судить по внутреннему использованию Google — три триллиона токенов в день и их количество продолжает расти, удваиваясь каждые несколько недель, и нет никаких признаков замедления — компания не просто делает ставку. Она делает эту ставку сама, используя собственных инженеров, собственную инфраструктуру, в масштабах, которые еще не были достигнуты ни одним клиентом. В войне за снижение затрат на ИИ наиболее убедительным аргументом может быть просто: мы сделали это первыми.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.