Новости
RT-2 — новая модель переводит видение и язык в действия
RT-2 не только демонстрирует, как достижения в области ИИ быстро перетекают в робототехнику, но и открывает огромные перспективы для создания роботов общего назначения.
RT-2 — это новая версия модели, которую Google называет «видение-язык-действие» (vision-language-action, VLA), и наконец-то мы можем увидеть потенциал роботов общего назначения. В то время как все говорят о чат-ботах с искусственным интеллектом, именно у роботов происходит настоящая революция.
Компания DeepMind анонсировала Robotic Transformer 2 (RT-2), «первую в своем роде» VLA-модель, которая использует данные, собранные из Интернета, для более эффективного управления роботами с помощью команд на обычном языке. Конечная цель — создание роботов общего назначения, способных ориентироваться в окружающей среде.
Основная идея заключается в том, что многие вещи можно перевести в форму языка, а затем реализовать с помощью больших языковых моделей, которые в настоящее время являются движущей силой ИИ. В данном случае действия робота рассматриваются как язык. Языковые лексемы переводятся в действия, и таким образом робот выполняет задачу. Второй компонент — модуль Vision Language Module (VLM), который обучается на изображениях, предъявляемых конволюционной сети, и языковой модели, обученной на языке, описывающем эти изображения. VLM может использоваться для создания подписей к изображениям, описания изображений и т.д. После обучения модуля вы предъявляете ему изображение, и он генерирует текст. В данном случае текст также включает в себя инструкции для роботов.
RT-1 был основан на PaLM-E, и в одной версии RT-2 он используется до сих пор, а во второй — PaLI-X, причем оба варианта имеют несколько разные достоинства и недостатки.
Способность RT-2 переводить информацию в действия открывает перспективы для более быстрой адаптации роботов к новым ситуациям и окружению. Протестировав модель RT-2 в более чем 6 тыс. робототехнических испытаний, специалисты обнаружили, что RT-2 работает так же хорошо, как и предыдущая модель RT-1, при решении задач, содержащихся в учебных данных, или «виденных» задач. А при выполнении новых, еще неизвестных сценариев ее эффективность возросла почти вдвое — до 62% по сравнению с 32% у RT-1.
Другими словами, в RT-2 роботы способны учиться так же, как и мы, — перенося усвоенные понятия на новые ситуации. Эта способность к обобщению очень важна. В отличие от GPT3 и других языковых моделей, RT-2 не может позволить себе галлюцинировать и выдавать неправдивые результаты — только подумайте, что бы это значило. Именно поэтому очень вероятно, что следующий большой прорыв в области ИИ произойдет благодаря «воплощенному» ИИ.
RT-2 не только демонстрирует, как достижения в области ИИ быстро перетекают в робототехнику, но и открывает огромные перспективы для создания роботов общего назначения. Несмотря на то, что предстоит еще много работы по созданию полезных роботов в среде, взаимодействующей с человеком, RT-2 демонстрирует нам захватывающее будущее робототехники, которое уже не за горами. Невозможно не задаться вопросом, к чему приведет использование подобной системы в Spot или Atlas, не говоря уже о самоуправляемых автомобилях. Все наши нынешние лучшие роботы появились задолго до того, как стал возможен подобный подход.
-
Интегрированные среды разработки2 недели назад
Лучшая работа с Android Studio: 5 советов
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2024.43
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2024.44
-
Исследования2 недели назад
Поможет ли новая архитектура React Native отобрать лидерство у Flutter в кроссплатформенной разработке?