В четверг большая группа исследователей из университетов и частных компаний представила Genesis — новую систему компьютерного моделирования с открытым исходным кодом, которая позволяет роботам отрабатывать задачи в смоделированной реальности в 430,000 раз быстрее, чем в реальном мире. Исследователи также могут использовать ИИ-агент для создания 3D-физических симуляций на основе текстовых подсказок.
Ускоренное моделирование означает, что нейронная сеть для управления роботами может потратить виртуальный эквивалент десятилетий на то, чтобы научиться поднимать предметы, ходить или манипулировать инструментами всего за несколько часов реального компьютерного времени.
«Один час вычислительного времени дает роботу 10 лет обучения. Именно так Нео смог в мгновение ока обучиться боевым искусствам в додзё Матрицы», — написал соавтор работы Genesis Джим Фан на сайте X. По его словам, он принимал “незначительное участие” в исследовании. Ранее Фан работал над несколькими проектами по моделированию робототехники для Nvidia.
Genesis появился в тот момент, когда исследователи робототехники ищут лучшие инструменты для тестирования и обучения роботов в виртуальной среде перед их внедрением в реальный мир. Быстрое и точное моделирование помогает роботам быстрее осваивать сложные задачи и сокращает необходимость в дорогостоящих физических испытаниях.
Платформа Genesis, разработанная группой под руководством Чжоу Сяня из Университета Карнеги-Меллон, обрабатывает физические расчеты в 80 раз быстрее, чем существующие симуляторы роботов (например, Isaac Gym от Nvidia). Она использует графические карты, подобные тем, что используются в видеоиграх, чтобы запускать до 100,000 симуляций одновременно. Это очень важно, когда речь идет об обучении нейронных сетей, которые будут управлять будущими роботами в реальном мире.
“Если ИИ может управлять тысячью роботов для выполнения 1 миллиона действий в 1 миллиарде различных симуляций, то он может «просто работать» в нашем реальном мире, который является просто еще одной точкой в огромном пространстве возможных реальностей», — написал Фан. «Это фундаментальный принцип, на котором основано то, почему симуляция так эффективно работает в робототехнике».
Генерирование динамических миров
Команда также объявила о возможности генерировать так называемые «4D динамические миры» (возможно, «4D» используется здесь потому, что они могут имитировать 3D-мир в движении с течением времени). Система использует vision-language модели (VLM) для создания полноценных виртуальных сред на основе текстовых описаний (аналогично «подсказкам» в других моделях ИИ), используя собственные инфраструктурные API симулирования Genesis для создания миров.
Созданные ИИ миры работают с реалистичной физикой, движением камеры и поведением объектов — и все это на основе текстовых команд. Затем система создает физически точные видео с трассировкой лучей и данные, которые роботы могут использовать для обучения.
Эта система, основанная на подсказках, позволяет исследователям создавать сложные среды для тестирования роботов, вводя команды на естественном языке, вместо того чтобы программировать их вручную. «Традиционно симуляторы требуют от художников огромного количества ручных усилий: 3D-ресурсы, текстуры, макеты сцен и т.д. Но каждый компонент рабочего процесса можно автоматизировать», — пишет Фан.
Используя свой движок, Genesis может также генерировать движения персонажей, интерактивные 3D-сцены, лицевую анимацию и многое другое, что может позволить создавать художественные ассеты для творческих проектов, а в будущем привести к созданию более реалистичных игр и видео, генерируемых ИИ, строящим симулированный мир в данных, а не оперирующим статистическим появлением пикселей, как в диффузионной модели видеосинтеза.
Хотя генеративная система пока не является частью доступного кода на GitHub, команда планирует выпустить ее в будущем.
Обучение роботов завтрашнего дня сегодня (с помощью Python)
Genesis продолжает активно разрабатываться на GitHub, где команда принимает вклад от сообщества.
Платформа отличается от других симуляторов 3D-мира для обучения роботов тем, что использует Python как для пользовательского интерфейса, так и для основного физического движка. Другие движки используют C++ или CUDA для своих базовых вычислений, оборачивая их в Python API. Genesis использует подход, основанный на Python.
Примечательно, что благодаря открытому характеру платформы Genesis высокоскоростные симуляторы обучения роботов доступны любому исследователю бесплатно с помощью простых команд Python, которые работают на обычных компьютерах.
Раньше для запуска симуляторов роботов требовалось сложное программирование и специализированное оборудование, говорит Фан в своем сообщении о Genesis, но так быть не должно. «Робототехника должна стать “лунным проектом”, принадлежащем всему человечеству», — написал он.