"Искусственный интеллект"

Как DeepMind обучает агентов, которые могут играть в любую игру без вмешательства человека

В новом документе предлагается новая архитектура и среда обучения для обычных агентов.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



В последние годы игры были в центре одного из крупнейших направлений глубокого обучения. Момент спутника глубокого обучения и игр наступил, когда агент обучения с подкреплением DeepMind AlphaGo победил чемпиона мира по го Ли Седола. Позже AlphaGo была усовершенствована с помощью AlphaZero, которая смогла освоить такие игры, как шахматы, го или сёги. Агенты обучения с подкреплением также достигли сверхчеловеческой производительности в многопользовательских играх, таких как Atari, Capture the Flag, StarCraft II, Dota 2 и Hide-and-Seek. Однако в каждом случае агенты обучения с подкреплением обучались в одной игре за раз. Идея создания агентов, которые могут осваивать несколько игр одновременно без серьезного вмешательства человека, остается недостижимой целью в области глубокого обучения. Недавно DeepMind опубликовал Открытое обучение ведет к универсально способным агентам - исследовательский документ, в котором подробно описаны методы и процессы обучения агентов обучения с подкреплением, способных осваивать несколько одновременных игр без вмешательства человека. Этот документ представляет собой важный шаг к созданию более универсальных агентов, которые взаимодействуют в реальных средах.

По сути, рецепт DeepMind для создания универсальных агентов основан на трех интуитивно понятных строительных блоках:

1) Богатый набор обучающих задач.

2) Гибкая архитектура и методы обучения.

3) Строгий процесс оценки прогресса.

Богатая вселенная тренировочных заданий

Чтобы в целом овладеть навыками изучения различных игр, DeepMind создал среду под названием XLand, которая, по сути, представляет собой целую плеяду игр. В галактике XLand игры размещаются на основе близости некоторых характеристик, таких как динамика сотрудничества или конкуренции. В каждую игру можно играть, используя разные уровни сложности, которые динамически меняются для улучшения обучающего поведения агента.

Гибкая архитектура и метод обучения

Агентная архитектура DeepMind основана на нейронной сети целевого агента (GOAT), которая использует внимание в своем текущем состоянии. Этот механизм помогает агенту сосредоточиться на определенных подцелях в данной игре. Распределение обучающих задач выбирается с помощью любимого DeepMind обучения на основе населения (PBT), которое использовалось во многих их моделях обучения с подкреплением. PBT настраивает параметры процесса генерации задачи, чтобы улучшить обучение агента. Процесс обучения буквально начинается с нуля и постепенно усложняется в зависимости от прогресса агента.

Измерение прогресса

Количественная оценка прогресса обучения по разнородным задачам может стать серьезной проблемой. Чтобы решить эту проблему, DeepMind нормализует баллы по каждой задаче и использует значение равновесия Нэша, вычисленное с использованием текущего набора обученных игроков. В оценочных задачах рассматриваются различные процентили нормализованных оценок, которые можно сравнивать между разными агентами.

Результаты, достижения

DeepMind обучил своего универсального агента примерно в 700 000 играх в 4000 мирах на XLand. В результате получилось примерно 200 000 000 000 обучающих шагов и 3 400 000 обучающих заданий. Агенты смогли справиться практически с любой задачей с практически нулевым вмешательством человека. Это ясно показывает жизнеспособность такого подхода к решению нескольких сложных задач с помощью одного агента без участия человека. Идеи, изложенные в этой статье, могут стать началом новой волны этапов обучения с подкреплением. Вы можете увидеть агентов в действии на видео ниже: