Набор инструментов RL с открытым исходным кодом для карточных игр Texas A&M и Simon Fraser Universities

В июле покерный бот Pluribus победил лучших профессионалов в безлимитной игре в покер Texas Hold’Em на шесть игроков. Pluribus обучился с нуля, используя форму обучения с подкреплением (RL), чтобы стать первой программой ИИ, которая победила элитных людей в игре в покер с более чем двумя игроками.

По сравнению с играми с идеальной информацией, такими как Chess или Go, покер представляет ряд уникальных проблем, связанных со скрытыми картами, блефом и другими человеческими стратегиями. Теперь группа исследователей из Техасского университета A&M и Канадского университета Саймона Фрейзера создала в открытом доступе инструментарий под названием «RLCard» для применения исследований RL в карточных играх.

Хотя RL уже произвел ряд прорывов в решении целевых задач и имеет большой потенциал, он не лишен недостатков. Например, нестабильность в приложениях с несколькими агентами замедлила разработку RL в доменах с множеством агентов, большими состояниями и пространствами действий и редкими вознаграждениями. Таким образом, многопользовательские карточные игры становятся хорошей тестовой средой для улучшения RL.

Набор инструментов RLCard поддерживает среды карточных игр, такие как Blackjack, Leduc Hold’em, Dou Dizhu, Mahjong, UNO и т. Д., Для преодоления обучения с подкреплением и игр с несовершенной информацией. Поскольку не каждый исследователь RL имеет опыт работы в теории игр, команда разработала интерфейсы, которые были простыми в использовании, а среды - настраиваемыми. Исследователи могут изменять такие факторы, как представление состояния, абстракция действий, дизайн вознаграждения и даже правила игры.

Исследовательская группа оценила RLCard с использованием современных алгоритмов RL в средах RLCard и по количеству вычислительных ресурсов, необходимых для генерации игровых данных. Они измерили производительность, используя процент выигрышей агентов RL против случайных агентов и в турнирах с самостоятельной игрой. Команда применила алгоритмы Deep Q-Network (DQN), Neural Fictitious Self-Play (NFSP) и Againstactual Regret Minimization (CFR) к средам и увидела аналогичные результаты для случайных агентов. Хотя NFSP был сильнее DQN в большинстве сред, оба были крайне нестабильны в более крупных играх, таких как UNO, Mahjong и Dou Dizhu.

Хотя RLCard специально разработан для поддержки RL в карточных играх, доступны другие инструменты RL, такие как OpenAI Gym, представленный OpenAI, и SC2LE (StarCraft II Learning Environment), представленный DeepMind и Blizzard.

Первый автор исследовательской работы Даочен Чжа, старший научный сотрудник Техасского университета A&M. Чжа сказал Synced, что надеется, что этот инструментарий может стимулировать исследования, которые помогут улучшить производительность RL не только в карточных играх, но и в других областях с несколькими агентами, большими пространствами состояний и действий и редкими наградами.

Статья RLCard: набор инструментов для обучения с подкреплением в карточных играх находится на arXiv. Набор инструментов с открытым исходным кодом доступен на GitHub.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Набор инструментов RL с открытым исходным кодом для карточных игр Texas A&M и Simon Fraser Universities

Вопросы по теме