Нейронная сеть Facebook, выполнившая один из самых сложных тестов искусственного интеллекта

Испытание Ханаби рассматривается многими из следующих рубежей в искусственном интеллекте.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
(Основные концепции машинного обучения + новаторские исследовательские работы и основы + новости и тенденции в области ИИ) x 5 минут, 3 раза в неделю =… thesequence.substack. com

Ранее в этом году исследователи из DeepMind и Google опубликовали статью, в которой предлагали игру Ханаби как новый рубеж для агентов искусственного интеллекта (ИИ). Причина обозначения в том, что Ханаби сочетает в себе многие из самых сложных задач для моделей ИИ в одной игре. Карточная игра работает в среде несовершенной информации и требует сотрудничества от разных игроков, чтобы справиться с задачей. Несколько дней назад Facebook AI Research (FAIR) опубликовал статью, в которой предлагал агент ИИ, который может достичь высочайшего уровня производительности в Hanabi, а также раскрыл новые идеи для работы в совместных средах с несовершенной информацией.

Читая это, вы можете задаться вопросом, нужен ли нам ИИ для освоения еще одной игры. В конце концов, в последние годы мы стали свидетелями того, как агенты ИИ достигли сверхчеловеческой производительности во всех видах игр, которые включают сложный стратегический анализ, такой как Го, неполную информацию, например, покер, или соревнования с участием нескольких агентов, такие как StarCraft. Однако в большинстве этих игр агенты соревновались с другими агентами или людьми или просто сотрудничали с известной командой агентов. Проблема Ханаби заключается в том, что агенты должны координировать свои действия с другими в частично наблюдаемой среде с ограниченным общением. Как люди, мы постоянно сталкиваемся с подобными ситуациями и обычно решаем их, формулируя мысленную модель поведения других агентов в различных ситуациях. Это обычно известно как теория разума. Чтобы решить проблему Ханаби, агентам ИИ потребуется разработать механизмы связи, которые позволят им сотрудничать (во время конкуренции) для достижения определенной цели. Но давайте начнем с понимания динамики игры Ханаби.

Ханаби

Hanabi - карточная игра, созданная французским гейм-дизайнером Antoine Buza. Игра может рассматриваться как форма пасьянса сотрудничества и обычно состоит из двух-пяти игроков. Каждый игрок держит в руке четыре карты (или пять, если играет с двумя или тремя игроками). На каждой карте указан ранг (от 1 до 5) и цвет (красный, зеленый, синий, желтый и белый); колода (набор всех карт) состоит из 50 карт, по 10 карт каждого цвета: три единицы, две двойки, тройки и четверки и, наконец, одна 5. Цель игры - разыграть карты так, чтобы для формирования пяти последовательно упорядоченных стопок, по одной для каждого цвета, начиная с карты ранга 1 и заканчивая картой ранга 5. Особенностью Ханаби является то, что, в отличие от большинства карточных игр, игроки могут видеть только руки своих партнеров, и не свои.

В любой ход игрок Ханаби может выполнить одно из трех действий: дать подсказку, сыграть карту с руки или сбросить карту.

I. Подсказки: Активный игрок может дать подсказку любому другому игроку. Подсказка состоит из выбора ранга или цвета и указания другому игроку всех его карт, соответствующих данному рангу или цвету.

II. Сброс: когда остается менее восьми жетонов информации, активный игрок может сбросить карту из своей руки. Сброшенная карта кладется лицевой стороной вверх (вместе с любыми неудачно сыгранными картами) и видна всем игрокам.

III. Игра. Наконец, активный игрок может взять карту (известную или неизвестную) из руки и попытаться ее разыграть. Разыгрывание карты считается успешным, если карта является следующей в последовательности ее цвета, которую нужно сыграть.

Игроки немедленно проигрывают, если все жетоны предохранителей ушли, и сразу же выигрывают, если все 5 жетонов были сыграны успешно. В противном случае игра продолжается до тех пор, пока колода не станет пустой, и еще один полный раунд после этого. В конце игры значения самых высоких карт в каждой масти суммируются, в результате чего получается общее количество очков из возможных 25.

СПАРТА: решение проблемы Ханаби с использованием поисковых стратегий

Ханаби сочетает в себе совместный игровой процесс и несовершенную информацию в многопользовательской среде. Эффективные игроки ханаби, будь то люди или машины, должны пытаться понять убеждения и намерения других игроков, потому что они не могут видеть те же карты, что видят их товарищи по команде, и могут только очень ограниченно делиться друг с другом подсказками. Это идеальная настройка для алгоритмов поиска.

Исходя из этого предположения, команда FAIR предложила стратегию, известную как поиск частично наблюдающих групп агентов (SPARTA). Модель SPARTA следует тем же принципам, что и при создании агента Pluribus, известного тем, что освоил безлимитный техасский холдем с шестью игроками. SPARTA также использует заранее вычисленную стратегию для всей игры, но только как план, чтобы приблизительно оценить, что произойдет позже в игре после того, как будут предприняты различные действия. Затем он использует эту информацию для вычисления улучшенной стратегии в реальном времени для конкретной ситуации, в которой находится.

Концептуально SPARTA состоит из двух основных методов: поиск с одним агентом и поиск с несколькими агентами. Точно так же многоагентная стратегия определяет, что несколько агентов могут выполнять поиск одновременно, но должны моделировать процедуру поиска других агентов, чтобы понять, почему они предприняли эти действия.

Поиск одного агента

В модели с одним поиском один агент выполняет поиск, предполагая, что все остальные агенты действуют в соответствии с политикой схемы. Это позволяет поисковому агенту рассматривать известную политику других агентов как часть среды и сохранять представления о скрытой информации на основе действий других.

Поскольку поисковик является единственным агентом, определяющим свою стратегию в режиме реального времени, в то время как все другие агенты реализуют фиксированную общеизвестную стратегию, это фактически установка единственного агента для поисковика (также известная как частично наблюдаемый марковский процесс принятия решений). Поисковик поддерживает распределение вероятностей по раздачам, которые он может держать. Всякий раз, когда действует другой агент, искатель перебирает каждую руку, которую он может держать, и обновляет свое мнение о том, действительно ли он держит эту руку, основываясь на том, предпринял бы другой агент наблюдаемое действие в соответствии со стратегией проекта, если бы искатель был держа эту руку. Каждый раз, когда поисковик должен действовать, он оценивает через развертывание методом Монте-Карло ожидаемую ценность каждого действия с учетом распределения вероятностей по раздачам. При этом искатель предполагает, что все агенты (включая искателя) действуют в соответствии со стратегией проекта до конца игры.

Поиск с одним агентом улучшает общую производительность, поскольку позволяет игроку с расширенным поиском принимать более обоснованные решения. Однако этот метод имеет ограничение, заключающееся в том, что товарищи по команде искателя по-прежнему используют только стратегию проекта в этом сценарии и, следовательно, иногда все еще действуют неоптимально.

Поиск нескольких агентов

Модель поиска с одним агентом предполагает, что все агенты заранее согласовывают политику схемы, а затем также соглашаются с тем, что только один агент когда-либо будет проводить поиск и отклоняться от схемы. У этой модели есть несколько заметных ограничений. Например, если Боб проводит поиск на втором ходу после того, как Алиса провела поиск, то мнение Боба о его распределении вероятностей по раздачам неверно. Это связано с тем, что предполагается, что Алиса играла в соответствии со стратегией проекта, в то время как Алиса на самом деле играла по модифицированной стратегии, определенной с помощью поиска.

Многоагентный поиск устраняет основное ограничение поиска с одним агентом, позволяя нескольким игрокам правильно проводить поиск в одной игре. Ключевая идея состоит в том, что агенты копируют процедуры поиска товарищей по команде, которые действовали, чтобы увидеть, какие стратегии вырабатывались их процедурами поиска. Модель многоагентного поиска предполагает, что все агенты заранее согласовывают как политику проекта, так и процедуру поиска, которая будет использоваться. Когда агент действует и проводит поиск, другие агенты точно копируют процедуру поиска, выполняемую агентом, и соответственно вычисляют результирующую политику.

СПАРТА и Ханаби

Поскольку это такая новая игра, существует не так много установленных тестов для оценки производительности Hanabi. Обсуждения с очень опытными игроками-людьми показали, что лучшие игроки могут достигать идеальных результатов в ханаби для двух игроков где-то в диапазоне от 60% до 70% времени при оптимизации для достижения идеальных результатов. Агент SPARTA оптимизирует ожидаемое значение, а не высшие баллы, и по-прежнему достигает высших баллов в 75,5% случаев в ханаби для двух игроков, как показано на следующем рисунке.

Hanabi предоставляет уникальную среду, которая требует сотрудничества агентов, использующих несовершенную информацию. Некоторые идеи, выдвинутые командой FAIR в SPARTA, могут быть немедленно применимы ко многим сценариям реального мира. Помимо статьи, FAIR открыла исходный код для стратегии в GitHub.