Искусственному интеллекту для игры в Го больше не нужны люди

Анна Гуляева

7 лет назад

Компании DeepMind удалось создать самообучаемую программу AlphaGo Zero для игры в Го, для которой можно будет найти и другие применения. Что это значит для науки и для исследователей, рассказали эксперты, занимающиеся вопросами искусственного интеллекта.

Дочерняя компания Google DeepMind, занимающаяся развитием искусственного интеллекта, представила новую версию программы для игры в Го AlphaGo Zero. Новая программа играет значительно лучше старой, которая победила мирового чемпиона по игре в Го ранее в этом году, но, что более важно, она полностью самообучаема. В DeepMind говорят, что теперь компания на один шаг ближе к созданию алгоритмов общего назначения, которые смогут решать сложнейшие научные проблемы — от создания новых лекарств до моделирования эффектов изменения климата.

Оригинальная AlphaGo продемонстрировала сверхчеловеческую способность игры в Го, но ей для этого потребовалась экспертиза людей-игроков. Для обучения использовалась база данных из более чем 100,000 «человеческих» партий в Го. В AlphaGo Zero, для сравнения, были заложены только базовые правила Го. Все остальное было изучено с нуля. Как указано в статье в Nature, Zero выработала свои навыки, играя против себя. Все начиналось со случайных ходов, но при каждой победе Zero обновляла свою систему и играла против себя снова и снова, миллионы раз.

После трех дней игры против себя Zero стала достаточно сильна, чтобы победить свою предыдущую версию, которая победила 18-кратного чемпиона мира Ли Се-дола. Zero победила во всех ста партиях. Через 40 дней у Zero было 90% побед в игре против самой сложной версии программы AlphaGo. В DeepMind заявляют, что это делает Zero самым сильным игроком в Го в истории.

Без использования человеческих данных и человеческой экспертизы — в любом виде — мы обошли границы человеческого понимания игры, — сказал ведущий программист AlphaGo Zero Дэвид Сильвер на пресс-конференции. — Следовательно, алгоритм способен создавать знания самостоятельно, просто на основе фундаментальных принципов. Это позволяет ему быть сильнее предыдущих версий.

Сильвер объяснил, что так как Zero играл против себя, он заново открыла стратегии Го, которые люди разрабатывали тысячелетиями. “Она начала очень наивно, как и начинающий человек, но со временем она играла так, что её было сложно отличить от людей-профессионалов”. Программа натыкалась на некоторые известные стратегии и варианты во время игры до того, как создать ещё неизвестные стратегии. “Она обнаружила человеческие ходы, попробовала их, но потом нашла что-то ещё”, — сказал Сильвер. DeepMind надеется, что, как и более ранние версии AlphaGo, Zero выступит в качестве вдохновения для профессиональных игроков, предлагая им новые ходы и стратегии для игры.

У Zero есть и другие важные преимущества перед ранними версиями. Во-первых, система требует меньше вычислительной мощности, запускаясь всего на четырех TPU (это специальные процессоры для ИИ, созданные Google), в то время как предыдущие версии использовали 48. Как говорит Сильвер, это создает условия для более гибкой системы, которую можно совершенствовать с меньшими трудностями, “что, в итоге, действительно важно, если мы хотим видеть прогресс”. Во-вторых, так как Zero самообучаема, это показывает, что мы можем создать новейшие алгоритмы без зависимости от больших объемов данных.

Для ИИ-экспертов эта новая версия означает опровержение постоянной критики современного ИИ в том, что большинство его успехов связаны с дешевой вычислительной мощностью и большими наборами данных. Скептики, например, Джоффри Хинтон, предполагают, что машинное обучение может выполнять только одну задачу. Сбор данных и вычислений помогают приспособить машинное обучение под новые функции, но существующие темпы развития неустойчивы. Последние исследования DeepMind демонстрируют, что существуют значительные улучшения, которые можно сделать, просто сосредоточив внимание на алгоритмах.

“Эта работа показывает, что комбинация существующих техник может привести дальше, чем многие эксперты могли подумать, даже хотя эти методы не новы”, — сказал Илья Суцкевер, директор по исследованиям в OpenAI. “Но в итоге важно то, что исследователи продолжают совершать улучшения в области, и не так важно, достигается ли эта цель разработкой новых методов или применением существующих методов необычными способами”.

В случае AlphaGo Zero особенно умным ходом оказался отказ от человеческой экспертизы. Сатиндер Сингх, профессор информатики, который написал сопроводительную статью к исследованию DeepMind в Nature, описывает работу как “элегантную” и выделяет её аспекты.

Сингх сказал, что это важная победа для сферы обучения с подкреплением, области ИИ, в которой программы учатся при помощи получения наград за достижение определенных целей, но не получают для этого никаких указаний. Это более новая сфера работы, чем контролируемое обучение (когда программы получают данные с метками и учатся на них), но у неё больший потенциал. Сингх говорит, что чем больше машина может узнать без руководства человека, тем лучше.

“За последние пять-шесть лет обучение с подкреплением развилось из академического метода до более широкого влияния на мир, и DeepMind внес в это свой вклад”, — говорит Сингх. “Тот факт, что они смогли создать лучшего игрока в Го со значительно меньшим количеством данных и вычислительной мощности и намного быстрее — это большое достижение. Так как обучение с подкреплением — это большая часть ИИ, это значит, что это большой шаг вперед в целом”.

Где можно применить такие алгоритмы? Согласно сооснователю DeepMind Демису Хассабису, они могут обеспечить общество чем-то вроде мыслительного движка для научных исследований. “Большая часть команды AlphaGo теперь переходит на другие проекты, чтобы попробовать применить эту технологию в других сферах”, — сказал Хассабис на пресс-конференции.

Он объясняет, что AlphaGo — это очень хорошая машина для поиска среди сложных данных. В случае Zero эти данные сравниваются с возможными ходами в игре Го. Но так как Zero не запрограммирована понимать исключительно Го, она может быть перепрограммирована, чтобы открывать информацию в других областях: поиск лекарств, синтез белка, квантовая химия, физика частиц и создание материалов. Хассабис предполагает, что потомка AlphaGo Zero можно будет использовать для поиска сверхпроводника при комнатной температуре, гипотетического вещества, которое проводит электрический ток без потери энергии, что позволяет создать необыкновенно эффективные энергетические системы (сверхпроводники существуют, но сейчас они работают при экстремально низких температурах). Как и в случае Го, алгоритм начнет создавать сочетания разных данных, то есть, атомного состава различных материалов и их свойств, пока не обнаружит что-то, что упустили люди.

Сооснователь DeepMind Демис Хассабис

“Может быть, где-то существует сверхпроводник при комнатной температуре. Я мечтал о нем, когда в детстве читал книги по физике”, — говорит Хассабис. “Но комбинаций материалов очень много, сложно сказать, [существует ли такая вещь]”.

Конечно, это будет гораздо сложнее, чем просто показать AlphaGo Zero Википедию и сказать, что мы хотим. Несмотря на свою сложность, Го, как и все настольные игры, достаточно проста для компьютеров. Количество правил конечно, игра не зависит от удачи, в ней нет скрытой информации, и, что самое важное, у исследователей есть доступ к идеальной симуляции игры. Это значит, что ИИ может провести миллионы тестов и быть уверенным, что ничего не упущено. Определение областей с такими же критериями ограничивает применение способностей Zero. Ведь DeepMind не создали волшебную мыслительную машину.

Если оставить эти оговорки, опубликованное исследование приближает DeepMind к решению первой части их миссии. Первая часть — решение вопроса интеллекта, а вторая — использование этого интеллекта для улучшения мира. “Мы пытаемся создать алгоритмы общего назначения, и это просто ещё один шаг вперед, но это волнующий шаг”, — говорит Хассабис…