Новая модель пытается воссоздать методы обучения с подкреплением и поиска, используемые AlphaZero в сценариях несовершенной информации.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Многие считают покер источником вдохновения для формализации теории игр. Сообщается, что Джон фон Нейман был заядлым поклонником покера и использовал множество аналогий с карточной игрой, создавая фундамент теории игр. С появлением искусственного интеллекта (ИИ) было много попыток освоить различные формы покера, большинство из них с очень ограниченными результатами. В прошлом году исследователи из Facebook и Университета Карнеги-Меллона удивили мир искусственного интеллекта, представив Pluribus, агента искусственного интеллекта, который победил элитных профессиональных игроков в самом популярном и широко распространенном в мире формате покера: безлимитном техасском холде на шесть игроков. Их покер. С тех пор исследователей ИИ беспокоит вопрос, можно ли использовать навыки, приобретенные такими моделями, как Pluribus, в других играх с несовершенной информацией. Несколько дней назад Facebook снова использовал покер в качестве источника вдохновения для Рекурсивного обучения, основанного на убеждениях (ReBeL), модели обучения с подкреплением, которая позволяет справиться с несколькими играми с несовершенной информацией.

Вдохновение от ReBeL исходит от DeepMind AlphaZero. Установив новые рекорды в игре го с развитием AlphaGo, DeepMind расширил свои усилия на другие игры с идеальной информацией, такие как Chess или Shogi. Результатом стал AlphaZero, агент подкрепления, который смог освоить все эти игры с нуля. Конечно, воссоздание магии AlphaZero в играх с несовершенной информацией, таких как покер, требует другого уровня сложности.

Такие игры, как покер, в которых игроки хранят свои карты в секрете, представляют собой серьезное препятствие для алгоритмов обучения с подкреплением и поиска. Большинство этих методов предполагают, что действие каждого игрока имеет фиксированное значение независимо от вероятности того, что это действие будет выполнено. Например, в шахматах хороший ход - это хорошо, независимо от того, играется он или нет. А теперь давайте представим такую ​​игру, как покер, в которой игроки все время блефуют. Во многих сценариях ценность блефа тем меньше, чем больше его используют, поскольку противники могут подстраивать под него свою стратегию. Как мы можем использовать методы обучения с подкреплением и поиска во многих играх с несовершенной информацией?

Входит ReBeL.

Идея ReBeL настолько проста, насколько умна. Если AlphaZero продемонстрировала успех в стратегиях обучения с подкреплением и поиска в играх с идеальной информацией, то почему бы не преобразовать игры с несовершенной информацией в эквиваленты с идеальной информацией? Знаю, знаю, это звучит слишком хорошо, чтобы быть правдой, но давайте посмотрим на пример.

Давайте представим упрощенную версию покера, в которой каждому игроку сдается по одной карте, который затем может выбрать одно из трех действий: сбросить карты, уравнять или поднять. Теперь рассмотрим вариант этой игры, в котором карты не раздаются игрокам напрямую, а вместо этого их может увидеть только сторонний судья. Вместо того, чтобы действовать напрямую, игроки объявляют, насколько вероятно, что они предпримут конкретное действие с учетом текущей руки. Судья примет меры на основании анализа игрока. С точки зрения стратегии эта модифицированная игра идентична оригинальной игре с той разницей, что она не содержит личной информации. Вместо этого модифицированную игру можно рассматривать как игру с идеальной информацией с непрерывным состоянием.

Преобразование игры с несовершенной информацией в среду с идеальной информацией открывает двери для использования тех же методов, которые работали для AlphaZero. Основная проблема на этом этапе - эффективность, поскольку пространство поиска намного больше, чем у большинства игр с идеальной информацией. Чтобы решить эту проблему, ReBeL использует метод оптимизации, известный как минимизация ложного сожаления (CFR), чтобы повысить эффективность поиска.

Facebook оценил ReBeL в двух играх: безлимитный техасский холдем один на один и Liar’s Dice, показав очень хорошие результаты в обеих.

ReBeL представляет собой важную веху в использовании обучения с подкреплением + поиска для решения общих задач игр с несовершенной информацией. Есть еще много проблем, включая тот факт, что он знает правила игры заранее, чего нет во многих сценариях реального мира. Facebook также предоставил открытый исходный код для реализации игры Liar’s Dice, чтобы исследовательское сообщество могло улучшить свои идеи.