ИИ победил человека практически в каждой существующей настольной игре, но у Google AI есть еще один проект, который призван победить человечество в пинг-понге.
Проект под названием i-Sim2Real касается не только пинг-понга, но и создания роботизированной системы, которая может работать с быстро меняющимся и относительно непредсказуемым человеческим поведением. Преимущество настольного тенниса, заключается в том, что он довольно жестко ограничен (в отличие от игры в баскетбол или крикет) и имеет баланс сложности и простоты.
Sim2Real — это способ описания процесса создания ИИ, в котором модель машинного обучения учится, что делать в виртуальной среде или симуляторе, а затем применяет эти знания в реальном мире. Это необходимо, когда для получения работающей модели могут потребоваться годы проб и ошибок — выполнение этого в симуляторе позволяет провести годы обучения в реальном времени за несколько минут или часов.
Но не всегда есть возможность что-то сделать в симуляторе. Например, что, если роботу нужно взаимодействовать с человеком? Это не так просто смоделировать, нужны реальные данные. В итоге разработчики сталкиваются с проблемой курицы и яйца — у них нет данных от человека, потому что они нужны, чтобы создать робота, с которым человек будет взаимодействовать, чтобы получать больше данных.
Исследователи Google избежали этой ловушки, начав с простого и создав цикл обратной связи:
[i-Sim2Real] использует простую модель человеческого поведения в качестве приблизительной отправной точки и чередует обучение в симуляции с развертыванием в реальном мире. В каждой итерации уточняются как модель человеческого поведения, так и политика ИИ.
Можно начать с плохого приближения к человеческому поведению, потому что робот тоже только начинает учиться. С каждой игрой собирается больше реальных человеческих данных, что повышает точность и позволяет ИИ учиться больше.
Подход был достаточно успешным, чтобы робот для настольного тенниса смог провести игру с 340 ударов:
Он также может возвращать мяч в разные области, не совсем с математической точностью, но достаточно хорошо, чтобы начать исполнять стратегию.
Команда также попробовала другой подход для более целенаправленного поведения, например, возвращение мяча в очень конкретное место с разных позиций. Опять же, речь идет не о создании совершенной машины для пинг-понга (хотя это, тем не менее, вероятное следствие), а о поиске способов эффективно тренироваться с людьми и для взаимодействия с ними, не заставляя людей повторять одно и то же действие тысячи раз.
Вы можете узнать больше о методах, которые использовала команда Google, в кратком видео ниже: