Самая мощная ИИ-модель для создания изображений и чат-боты для работы, учёбы и поиска. Что представил Google на I/O 2024

CleverPumpkin

2 года назад

Ежегодная конференция Google состоялась 14 мая. Android Lead Developer студии мобильной разработки CleverPumpkin Анатолий Шулипов собрал по горячим следам все обновления, которые произойдут в сервисах компании и на устройствах Android. Уже традиционно самые яркие обновления связаны с применением искусственного интеллекта.

Обзор обновлений сервисов Google

Искусственный интеллект проникает уже во все рабочие области экосистемы Google. Нейросети помогут сделать поиск ещё более персонализированным, найдут фотографии по запросу и помогут разобрать почту.

Google Search

Google внедряет ИИ практически во все этапы поиска с помощью Gemini. Теперь поиск будет уметь агрегировать информацию по объединенным запросам. То есть модель будет полезна в тех случаях, когда для получения полноценного ответа есть необходимость прописать несколько поисковых запросов.

Например, если вы ищете студию для занятий йогой в определёной локации и с хорошими отзывами, Gemini соберёт данные с карт, отзывы, рейтинги и другую полезную информацию в единое сообщение. Без посещения отдельных страниц сайтов можно будет совершать покупки и бронировать локации для отдыха.

Google Photos

В сервисе появится экспериментальная функция Ask Photos. С помощью запросов пользователи смогут находить снимки или информацию на них. Забыли, когда ребёнок научился плавать или когда вы в последний раз были на море? Задайте вопрос в поиске и Google выдаст все подходящие фотографии по вашему запросу.

Google Workspace

Чат-бот на боковой панели сервиса будет использовать Gemini 1.5 Pro. А пользователям почты будет доступно саммари по письмам из цепочки. Например, если школа вашего ребёнка ежемесячно отправляет множество писем, то на боковой панели задайте запрос «‎Сделай саммари писем от школы №123»‎.

Также стала доступна автоматизация и других задач: модель поможет собрать чеки из почты и построить график трат. А после система может автоматически загрузить чеки в Google Sheets.

Кроме того, нейросеть сможет выделять ключевые идеи из звонков через Google Meet.

Google Lens

Google Lens уже позволяет производить поиск на основе изображений, но теперь сервис предлагает возможность поиска по видео. Это означает, что вы можете навести камеру на то, с чем у вас возникла проблема, и задать вопрос прямо во время видеосъёмки.

Генеративные модели

Google представила несколько новых проектов генеративных медиа для изображений, видео и музыки, а также обновления модели Gemini.

Gemini 1.5 Flash

Обновлённая модель обещает быть такой же мощной, как версия Pro и другие модели Gemini от Google, но при этом будет работать намного быстрее. Версия Flash хорошо подойдёт для ответов в режиме реального времени или быстрого создания изображений, в то время как Gemini 1.5 Pro может читать и обобщать большие исследовательские работы. Обе модели являются мультимодальными, то есть обрабатывают текст, изображения и видео.

Project Astra

Google представила мультимодальный ИИ-помощник (да здравствуют сёстры Siri и Алисы), работающий в режиме реального времени, который с помощью доступа к видео сможет подсказать, где вы оставили определённые предметы, а также отвечать на вопросы. В демонстрационном ролике пользователь Astra в лондонском офисе Google просит систему идентифицировать говорящего, найти пропавшие очки и проверить код.

Imagen 3

Google представила самую мощную (по их словам) AI-модель для создания изображений по текстовому описанию. С помощью одного текстового запроса приложение будет способно создавать изображения с невероятной детализацией, реалистичным освещением и сокращённым количеством «‎отвлекающих артефактов»‎. Частным пользователям можно оформить подписку через Google ImageFX. Компаниям и разработчикам сервис будет доступен через Vertex AI.

Music Ai Sandbox

Компания также представила новую модель для генерации звука и музыки. Технология, разработанная в сотрудничестве с YouTube, предлагает новый подход к созданию музыки с помощью инструментов для создания звуков с нуля, переключения между стилями треков и многого другого. Правда, информации о том, как система будет работать, пока нет, как и данных о точной дате запуска.

Veo

Ответ Google на Sora от OpenAI — новая генеративная модель, которая может создавать видео с разрешением до 1080p на основе текста, изображений и видеоподсказок. Видео можно создавать в различных стилях, например, в режиме аэрофотосъемки или замедленной съёмки. Компания уже предлагает Veo некоторым авторам для использования в видеороликах на YouTube.

Chip

Google представила виртуального «‎коллегу»‎. Для него можно создать собственный профиль и добавлять в рабочие чаты, чтобы он собирал информацию по работе. Бот придёт на помощь, когда у вас возникнет рабочий вопрос, например «‎На какое число Виктор поставил совещание по разработке?»‎. Chip даст быстрый ответ на основе анализа сообщений, а вам не придётся листать бесконечные переписки. Модель будет работать только внутри экосистемы Google.

SynthID

Google представила технологию маркировки текста, чтобы впоследствии можно было идентифицировать его как созданный искусственным интеллектом без изменения качества или смысла написанного. До этого система ставила маркировку только на изображения и аудио. SynthID также будет отмечать водяными знаками видео, созданные Veo.

LearnLM

На презентации также представили новое семейство моделей, специально разработанных для обучения:

На Android появится функция Circle to Search, которая может помочь решить задачи по математике и физике прямо с телефонов и планшетов;
В чате с Gemini будут доступны Gems — специальные версии нейросети, которые могут выступать в качестве экспертов по любой теме;
На YouTube появится диалоговый инструмент, который позволяет «поднять руку» во время просмотра научных видеороликов, чтобы задать уточняющие вопросы, получить пояснения или пройти тест по изученному. Функция будет работать и с длинными образовательными видеороликами, так как модель может работать с объёмным контекстом. Эти функции уже доступны некоторым пользователям Android в США;
Illuminate — экспериментальная функция, которая превращает научные статьи в короткие аудиодиалоги. За считанные минуты модель сможет генерировать аудиозапись с двумя голосами, которые представят саммари идей из научного документа.

Обновления для Android

Обновлений для операционной системы в этот раз немного, но уже сегодня появится новая версия для смартфонов — Android 15 beta 2. Оценим её на практике позже, а пока расскажем о нескольких новых функциях:

Обведи, чтобы найти

На смартфонах пользователей появится функция Circle to Search, которая позволит совершать поиск по фото с помощью простого жеста обводки — без необходимости прерывать то, что вы делаете, или переключаться на другое приложение.

Обновления Gemini

В новой версии Android появится наложение Gemini поверх приложения, в котором вы находитесь. Например, вы сможете перетащить сгенерированные изображения в Gmail, Google Messages и в другие приложения.

TalkBack

Новые возможности появятся и для людей, страдающих нарушениями зрения. Пользователи с ограниченными возможностями здоровья смогут получать более подробные и чёткие описания того, что происходит на изображении.

Предупреждения о мошенничестве во время подозрительных звонков

Google тестирует функцию, которая позволит в режиме реального времени обнаруживать скрипты разговоров, которые обычно используются при телефонном мошенничестве. Например, вы получите предупреждение, если «представитель банка» попросит вас срочно перевести средства на какой-либо счёт, произвести платёж или запросит личную информацию — PIN-коды карты, пароли или CVV-код. В компании заверили, что информация останется конфиденциальной.

Новшества для разработчиков

Для специалистов появилось несколько интересных решений. Главной новостью стало объявление поддержки KMP, что позволит совместно использовать код на мобильных, веб-, серверных и десктопных платформах. Обновление включает в себя поддержку SKIE, новых инструментов и библиотек, а также официальные рекомендации по использованию Kotlin Multiplatform.

Trillium

Google представила шестое поколение фирменного процессора для центров обработки данных искусственного интеллекта. По данным компании, он почти в пять раз быстрее своей предыдущей версии.

Gemini 1.5 Flash и Gemini 1.5 Pro

Первый предназначен для тех, кому важна скорость работы, а второй способен обрабатывать больший вес информации и более сложные и многоэтапные задачи. Последний получит двухмиллионое контекстное окно.

Gemma

Google объявила о ряде новых дополнений к Gemma — семейству моделей с открытым исходным кодом, сравнимых с открытыми моделями Meta Llama и Mistral. Самым ярким релизом стала Gemma 2, которая включит в себя 27 млн. параметров и будет выпущена в июне.

Все обновления Google связаны с внедрением искусственного интеллекта, который проник даже в неожиданные сервисы. Будем следить за обновлениями и испытывать их на практике!