Бот для игры в Minecraft, созданный OpenAI, тренировался на 70,000 часов видео от людей, играющих в популярную компьютерную игру. Это пример новой мощной техники, которую можно использовать для обучения машин выполнению широкого круга задач, используя такие сайты, как YouTube, обширный и неиспользованный источник обучающих данных.
Minecraft AI научился выполнять сложные последовательности нажатий клавиш и мыши для выполнения задач в игре, таких как рубка деревьев и создание инструментов. Это первый бот для Minecraft, который может создавать так называемые алмазные инструменты — задача, которая обычно занимает у хороших игроков 20 минут кликов — или около 24,000 действий.
Такой результат стал возможен благодаря прорыву в методе, известном как имитационное обучение, при котором нейронные сети обучаются выполнять задачи, наблюдая за тем, как их делают люди. Имитационное обучение можно использовать для обучения ИИ управлению роботизированными руками, вождению автомобилей или навигации по веб-страницам.
В Интернете есть огромное количество видео, на которых люди выполняют разные задачи. Используя этот ресурс, исследователи надеются сделать для имитации обучения то, что GPT-3 сделал для больших языковых моделей. «За последние несколько лет мы стали свидетелями подъема этой парадигмы GPT-3, где мы видим удивительные возможности, исходящие от больших моделей, обученных на огромных данных из Интернета», — говорит Боуэн Бейкер из OpenAI, один из разработчиков, создавших новый бот для Minecraft. «В значительной степени это связано с тем, что мы моделируем то, что люди делают, когда выходят в интернет».
Проблема с существующими подходами к имитационному обучению заключается в том, что видеодемонстрации должны быть размечены на каждом этапе — выполнение этого действия приводит к тому, а того к этому, и так далее. Аннотирование вручную таким образом требует большой работы, поэтому такие наборы данных, как правило, невелики. Бейкер и его коллеги хотели найти способ превратить миллионы видео, доступных в Интернете, в новый набор данных.
Подход команды, называемый Video Pre-Training (VPT), позволяет обойти узкое место в имитационном обучении, обучая другую нейронную сеть автоматически маркировать видео. Исследователи сначала наняли краудворкеров для игры в Minecraft и записали нажатия их клавиатуры и мыши вместе с видео с их экранов. Это дало им 2000 часов игры в Minecraft с аннотациями, которые они использовали для обучения модели сопоставлять действия с результатами на экране. Щелчок кнопкой мыши в определенной ситуации заставляет персонажа, например, взмахнуть топором.
Следующим шагом было использование этой модели для создания меток действий для 70,000 часов немаркированного видео, взятого из Интернета, а затем обучение бота Minecraft на этом большом наборе данных.
«Видео — это учебный ресурс с большим потенциалом», — говорит Питер Стоун, исполнительный директор Sony AI America, ранее работавший над имитационным обучением.
Имитационное обучение — это альтернатива обучению с подкреплением, при котором нейронная сеть учится выполнять задачу с нуля методом проб и ошибок. Это метод, лежащий в основе многих крупнейших прорывов в области искусственного интеллекта за последние несколько лет. Он использовался для обучения моделей, которые могут побеждать людей в играх, управлять термоядерным реактором и открывать более быстрые способы выполнения фундаментальных вычислений.
Проблема в том, что обучение с подкреплением лучше всего работает для задач, имеющих четкую цель, где случайные действия могут привести к случайному успеху. Алгоритмы обучения с подкреплением вознаграждают эти случайные успехи, чтобы повысить вероятность их повторения.
Но Minecraft — это игра без четкой цели. Игроки могут делать то, что им нравится: бродить по созданному компьютером миру, добывать различные материалы и комбинировать их для создания разных предметов.
Открытость Minecraft делает его хорошей средой для обучения ИИ. Бейкер был одним из исследователей Hide & Seek, проекта, в котором боты были выпущены на виртуальную игровую площадку, где они использовали обучение с подкреплением, чтобы выяснить, как сотрудничать и использовать инструменты для победы в простых играх. Но вскоре боты переросли свое окружение. «Агенты как бы захватили вселенную; им больше нечего было делать», — говорит Бейкер. «Мы хотели расширить ее, и мы подумали, что Minecraft — отличная область для работы».
Minecraft становится важной испытательной площадкой для новых методов искусственного интеллекта. MineDojo, среда Minecraft с десятками предварительно разработанных задач, получила награду на NeurIPS в этом году, одной из крупнейших конференций по искусственному интеллекту.
Используя VPT, бот OpenAI смог выполнять задачи, которые были бы невозможны при использовании только обучения с подкреплением, такие как создание досок и превращение их в стол, что включает около 970 последовательных действий. Тем не менее, команда обнаружила, что наилучшие результаты были получены при совместном использовании имитационного обучения и обучения с подкреплением. Взяв бота, обученного с помощью VPT, и доработав его с помощью обучения с подкреплением, он смог выполнять задачи, включающие более 20,000 последовательных действий.
Исследователи утверждают, что их подход можно использовать для обучения ИИ выполнению других задач. В первую очередь для ботов, использующих клавиатуру и мышь для навигации по веб-сайтам — бронирования авиабилетов или покупки продуктов в Интернете. Но теоретически его можно использовать для обучения роботов выполнению физических задач в реальном мире путем копирования видео от первого лица, на котором люди делают эти вещи.