Как ИИ учится играть в Dota 2

В августе команда ботов, разработанная калифорнийской компанией OpenAI в области искусственного интеллекта, соревновалась с некоторыми из лучших игроков мира в Dota 2. Боты сразились с двумя ведущими (человеческими) командами по Dota 2, paiN gaming и Chinese Legends, в двух демонстрациях. матчи на The International 8, ежегодном чемпионате мира по Dota 2, проходили в Ванкувере. Хотя боты проиграли оба матча, их игру называют крупным успехом ИИ.

Dota 2 и OpenAI

Dota 2 - это многопользовательская онлайн-игра на боевой арене (MOBA), созданная вашингтонским разработчиком игр Valve Corporation. Первоначально это название расшифровывалось как Defense of the Ancients, чрезвычайно популярного мода для Warcraft III от Blizzard Entertainment, созданного в 2003 году. Выпущенная в 2013 году, Dota 2 представляет собой отдельную игру, которая служит модернизированным продолжением оригинального мода DotA. С тех пор Dota 2 стала одной из самых популярных многопользовательских онлайн-игр всех времен, в которой одновременно могут участвовать до одного миллиона игроков онлайн.

В Dota 2 две команды по пять игроков соревнуются за уничтожение «Древнего» противостоящей команды - большого сооружения рядом с их начальной точкой на карте («ареной») - при этом защищая свою собственную. Каждый из десяти игроков управляет одним из более чем сотни персонажей, известных как герои, каждый из которых обладает уникальными сильными и слабыми сторонами и способностями. В дополнение к своим основным способностям наносить урон противоборствующей команде и ее Древнему, герои также могут накапливать очки опыта и собирать предметы по всей карте, чтобы улучшить свои боевые способности. Таким образом, команды-победители должны разработать стратегию, которая включает в себя выбор героя и синергию, опыт и сбор предметов, боевые навыки и способности, знание карты и (если доступно) информацию о противостоящей команде. На высших уровнях соревновательной игры Dota 2 лучшие команды состоят из профессионалов, работающих на полную ставку, которые «разрабатывают теорию» вокруг оптимальных стратегий для различных героев и карт и проводят месяцы и годы, тренируясь, чтобы противостоять другим ведущим игрокам на турнирах.

Team Human играет против OpenAI Five в демонстрационном матче (источник изображения: https://blog.openai.com/openai-five/)

Сложность и популярность Dota 2 сделали ее центром внимания некоторых ведущих мировых экспертов по искусственному интеллекту в известной некоммерческой организации OpenAI. Миссия OpenAI, основанная в 2015 году Илоном Маском и Сэмом Альтманом, президентом Y Combinator, заключается в создании безопасного общего искусственного интеллекта - машины, способной выполнять любые интеллектуальные задачи, которые под силу человеку. Создавая искусственный интеллект, который преуспевает в сложных и динамичных играх, таких как Dota 2, компания считает, что он может приблизить человечество к конечной цели - заставить AGI функционировать в беспорядке реального мира.

OpenAI Five

OpenAI Five - это команда из пяти нейронных сетей, основанная на крупномасштабной версии Proximal Policy Optimization, типа подкрепляющего машинного обучения, разработанного OpenAI. Ботов обучают максимизировать экспоненциально уменьшающуюся сумму будущих вознаграждений за счет данных, полностью полученных в ходе самостоятельной игры. По сути, это означает, что боты играют против самих себя, чтобы научиться вести себя так, чтобы максимизировать их шансы на победу. Конечно, есть несколько факторов, которые делают этот тренировочный процесс невероятно сложной задачей. Вот всего два:

Машинное обучение в контексте такой игры, как Dota 2, требует огромных объемов данных. Это связано с тем, что Dota 2 представляет собой «многомерное, непрерывное пространство наблюдения» - открытый мир с бесчисленными триллионами различных возможных «состояний доски» и возможных решений в любой момент времени. Действительно, боты OpenAI наблюдают за состоянием матча по Dota 2 в любой момент времени в виде набора из 20 000 номеров. Сравните это с такой игрой, как Chess, где любое заданное состояние доски может быть представлено примерно 70 значениями. Кроме того, из-за непрерывного характера Dota 2 OpenAI Five должен собирать 7,5 наблюдений за состоянием игры в секунду, включая эту информацию в свою функцию максимизации. Поразительно, но каждый бот обучается с использованием данных моделирования матчей Dota 2 за 180 лет в день!
Dota 2 - это игра с относительно долгими временными горизонтами. Матчи обычно длятся от 30 до 45 минут непрерывного игрового процесса. Конечно, игры в шахматы и го могут длиться долго, но их пошаговый фиксированный стиль означает, что игры обычно выигрываются или проигрываются менее чем за 100 ходов. Помимо огромного количества возможных ходов для каждого бота в Dota 2, возникает проблема определения временного горизонта для максимизации вознаграждения. Другими словами, должен ли бот пытаться максимизировать свои награды в следующую секунду? Или он должен пытаться максимизировать свои награды на протяжении всей игры? Достижение окончательной победы часто требует отказа от краткосрочных вознаграждений в пользу долгосрочной стратегии. В то же время сосредоточение внимания только на долгосрочной стратегии требует больших вычислительных ресурсов и может снизить эффективность ботов в критические моменты битвы. В совокупности это означает, что разработчики OpenAI должны выбрать правильный «период полураспада» будущих вознаграждений (по отношению к их экспоненциально убывающей сумме), чтобы сбалансировать краткосрочную и долгосрочную эффективность.

Результаты

За несколько месяцев до International 8 OpenAI Five обыграла ряд любительских и полупрофессиональных команд по Dota 2. Но на чемпионате мира команда проиграла, проиграв профи бразильской команды paiN gaming и Chinese Legends. Обе игры начались с сильного старта OpenAI Five, когда боты выполняли задачи и стратегии с исключительной точностью. Комментаторы отметили, чем поведение ботов отличалось от поведения ведущих игроков. Майк Кук, исследователь игр с искусственным интеллектом, сказал Verge: «Часто люди выигрывали битву, а затем слегка ослабляли бдительность, ожидая, что вражеская команда отступит и перегруппируется. Но боты этого не делают. Если они видят добычу, они ее берут ». Но когда человеческие команды вышли вперед в матчах, боты пошатнулись, по-видимому, не в состоянии делать рискованные действия, необходимые для того, чтобы помочь им действовать сзади. Некоторые наблюдатели предполагают, что программирование вознаграждений ИИ заставляет их предпочитать такие стили игры, которые предлагают более надежные и мелкие вознаграждения вместо маловероятных и высоких выигрышей, которые часто необходимы для изменения игры. К концу обоих матчей люди намного опередили своих машинных противников.

Означает ли это, что ИИ нашел себе пару? Нисколько. Благодаря большему количеству данных и большему количеству тренировок, особенно тех, которые были собраны во время матчей против профессионалов на International 8, боты вернутся еще сильнее в будущих турнирах по Dota 2. За их успехами стоит наблюдать тем, кто интересуется последней мечтой об общем искусственном интеллекте.

— — — — — — — — — — — — — — — — — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.

Эта история публикуется в журнале Noteworthy, куда ежедневно приходят более 10 000 читателей, чтобы узнать о людях и идеях, формирующих наши любимые продукты.

Следите за нашей публикацией, чтобы увидеть больше историй о продуктах и дизайне, представленных командой Journal.

Как ИИ учится играть в Dota 2 - и побеждать

Вопросы по теме