Технология, лежащая в основе ChatGPT, способна делать гораздо больше, чем просто “разговаривать”. Линьси «Джим» Фан, ИИ-исследователь в компании Nvidia, вместе с коллегами придумал способ использовать мощную языковую модель GPT-4 — «мозг» ChatGPT и растущего числа других приложений и сервисов — в Minecraft.
Команда Nvidia, в которую также входил Анима Анандкумар, директор компании по машинному обучению и профессор Калтеха, создала бота для Minecraft под названием Voyager, который использует GPT-4 для решения задач в игре. Языковая модель генерирует задачи, которые помогают агенту исследовать игру, и код, который со временем улучшает навыки бота в игре.
Voyager не играет в игру как человек, но он может читать состояние игры напрямую, через API. Например, он может увидеть удочку в своем инвентаре и реку поблизости и с помощью GPT-4 предложить цель — заняться рыбалкой, чтобы получить опыт. Затем он использует эту цель, чтобы GPT-4 сгенерировал код, необходимый для достижения цели персонажем.
Самой новой частью проекта является код, который GPT-4 генерирует для добавления поведений в Voyager. Если изначально предложенный код не работает идеально, Voyager попытается его доработать, используя сообщения об ошибках, обратную связь из игры и описание кода, сгенерированного GPT-4.
Со временем Voyager создает библиотеку кода, чтобы научиться создавать все более сложные вещи и исследовать все новые возможности игры. График, созданный исследователями, показывает, насколько он способен по сравнению с другими агентами. Voyager получает более чем в три раза больше предметов, исследует в два раза большее расстояние и создает инструменты в 15 раз быстрее, чем другие ИИ-агенты. Фан говорит, что в будущем этот подход может быть усовершенствован, если система сможет получать визуальную информацию из игры.
В то время как чат-боты вроде ChatGPT поразили мир своим красноречием и очевидными знаниями — даже если они часто что-то придумывают — Voyager демонстрирует огромный потенциал языковых моделей для выполнения полезных действий на компьютере. Использование языковых моделей таким образом, возможно, позволит автоматизировать многие рутинные офисные задачи, что потенциально является одним из самых больших экономических эффектов технологии.
Процесс, который Voyager использует с GPT-4, чтобы понять, как делать вещи в Minecraft, может быть адаптирован для программного помощника, который будет автоматизировать задачи через операционную систему на ПК или телефоне. OpenAI, стартап, создавший ChatGPT, добавил к боту плагины, которые позволяют ему взаимодействовать с онлайн-сервисами, такими как, например, приложение для доставки продуктов Instacart. Компания Microsoft, которой принадлежит Minecraft, также обучает ИИ-программы для игры в нее, а недавно компания анонсировала Windows 11 Copilot — функцию операционной системы, которая будет использовать машинное обучение и API для автоматизации определенных задач. Возможно, было бы неплохо поэкспериментировать с подобной технологией в такой игре, как Minecraft, где несовершенный код может нанести относительно небольшой вред.
Конечно, видеоигры уже давно стали испытательным полигоном для ИИ-алгоритмов. AlphaGo, которая освоила чрезвычайно тонкую настольную игру Go в 2016 году, играла в простые видеоигры Atari. AlphaGo использовала метод, называемый обучением с подкреплением, который обучает алгоритм играть в игру, давая ему положительную и отрицательную обратную связь, например, по счету в игре. Но этим методом сложнее руководить агентом в бессрочной игре, такой как Minecraft, где нет ни счета, ни набора целей, и где действия игрока могут окупиться лишь много позже. Так что новый бот для Minecraft демонстрирует совершенно новый подход и будущее больших языковых моделей.