"Искусственный интеллект"
Как DeepMind обучает агентов, которые могут играть в любую игру без вмешательства человека
В новом документе предлагается новая архитектура и среда обучения для обычных агентов.
Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:
В последние годы игры были в центре одного из крупнейших направлений глубокого обучения. Момент спутника глубокого обучения и игр наступил, когда агент обучения с подкреплением DeepMind AlphaGo победил чемпиона мира по го Ли Седола. Позже AlphaGo была усовершенствована с помощью AlphaZero, которая смогла освоить такие игры, как шахматы, го или сёги. Агенты обучения с подкреплением также достигли сверхчеловеческой производительности в многопользовательских играх, таких как Atari, Capture the Flag, StarCraft II, Dota 2 и Hide-and-Seek. Однако в каждом случае агенты обучения с подкреплением обучались в одной игре за раз. Идея создания агентов, которые могут осваивать несколько игр одновременно без серьезного вмешательства человека, остается недостижимой целью в области глубокого обучения. Недавно DeepMind опубликовал Открытое обучение ведет к универсально способным агентам - исследовательский документ, в котором подробно описаны методы и процессы обучения агентов обучения с подкреплением, способных осваивать несколько одновременных игр без вмешательства человека. Этот документ представляет собой важный шаг к созданию более универсальных агентов, которые взаимодействуют в реальных средах.
По сути, рецепт DeepMind для создания универсальных агентов основан на трех интуитивно понятных строительных блоках:
1) Богатый набор обучающих задач.
2) Гибкая архитектура и методы обучения.
3) Строгий процесс оценки прогресса.
Богатая вселенная тренировочных заданий
Чтобы в целом овладеть навыками изучения различных игр, DeepMind создал среду под названием XLand, которая, по сути, представляет собой целую плеяду игр. В галактике XLand игры размещаются на основе близости некоторых характеристик, таких как динамика сотрудничества или конкуренции. В каждую игру можно играть, используя разные уровни сложности, которые динамически меняются для улучшения обучающего поведения агента.
Гибкая архитектура и метод обучения
Агентная архитектура DeepMind основана на нейронной сети целевого агента (GOAT), которая использует внимание в своем текущем состоянии. Этот механизм помогает агенту сосредоточиться на определенных подцелях в данной игре. Распределение обучающих задач выбирается с помощью любимого DeepMind обучения на основе населения (PBT), которое использовалось во многих их моделях обучения с подкреплением. PBT настраивает параметры процесса генерации задачи, чтобы улучшить обучение агента. Процесс обучения буквально начинается с нуля и постепенно усложняется в зависимости от прогресса агента.
Измерение прогресса
Количественная оценка прогресса обучения по разнородным задачам может стать серьезной проблемой. Чтобы решить эту проблему, DeepMind нормализует баллы по каждой задаче и использует значение равновесия Нэша, вычисленное с использованием текущего набора обученных игроков. В оценочных задачах рассматриваются различные процентили нормализованных оценок, которые можно сравнивать между разными агентами.
Результаты, достижения
DeepMind обучил своего универсального агента примерно в 700 000 играх в 4000 мирах на XLand. В результате получилось примерно 200 000 000 000 обучающих шагов и 3 400 000 обучающих заданий. Агенты смогли справиться практически с любой задачей с практически нулевым вмешательством человека. Это ясно показывает жизнеспособность такого подхода к решению нескольких сложных задач с помощью одного агента без участия человека. Идеи, изложенные в этой статье, могут стать началом новой волны этапов обучения с подкреплением. Вы можете увидеть агентов в действии на видео ниже: