Этот ИИ может сыграть 57 игр со сверхчеловеческой производительностью!

Обзор статьи DeepMind «Agent57: Превосходя эталонный тест Atari Human» Бадиа и др.

Когда мы обучаем интеллектуальных агентов для конкретной игры, мы часто пытаемся добиться от нашего агента максимальной производительности в этой игре. Для этого мы обычно изменяем наш алгоритм обучения с подкреплением или нашу модель нейронной сети, добавляя некоторые игровые знания. Хотя этот подход дает лучшие тесты для этой игры, этот же метод, скорее всего, даст неоптимальную производительность в других играх. Это означает, что то, что мы делаем, нельзя назвать общей разведкой.

Если мы сможем каким-то образом создать один-единственный подход, который сможет преуспеть в нескольких играх, это упростит обучение ботов для новых игр без необходимости каждый раз заново проектировать наши модели или алгоритм обучения.

Агент57

Вот почему сегодня я хочу осветить статью DeepMind Агент 57: Превосходя Atari Human Benchmark, в которой представлен единый алгоритм обучения, который может достичь сверхчеловеческой производительности в 57 различных играх в набор игр Atari с разным уровнем сложности. Прелесть этой работы в том, что она закладывает прочную основу для создания общего искусственного интеллекта.

Как вы можете видеть здесь, Agent57 играет в разные классические аркадные игры из набора игр Atari, и во всех случаях ему также удается превзойти лучшие человеческие показатели. Это новаторский подход, потому что некоторые игры здесь ставят перед нашим агентом чрезвычайно сложные задачи, когда вам необходимо проводить долгосрочное планирование, чтобы получить положительные результаты. Это означает, что прямо сейчас необходимо предпринять правильный набор действий, которые приведут к выигрышным результатам через несколько шагов / минут.

Дополнительная задача здесь - решить, когда агенту нужно поэкспериментировать с новыми стратегиями, которые могут дать даже лучшие результаты, чем его текущая стратегия, которая уже дает достойные результаты. Эта стратегия исследования обычно вручную закодирована в алгоритмы в зависимости от игры, но Agent57 обрабатывает это по-разному. Он использует модуль метаобучения, который учится, когда продолжать изучать новые игровые стратегии, а когда останавливаться, поэтому этот подход лучше адаптируется к различным играм и действительно обобщает хорошо. Это устраняет необходимость вручную настраивать параметры обучения в нашем алгоритме и, таким образом, дает лучшие результаты в широком спектре игр.

Полученные результаты

Следующий видео-плейлист с канала DeepMind на YouTube показывает, что Agent57 играет во все 57 игр пакета Atari. Наслаждаться!

Еще несколько достижений в этом направлении работы означают, что мы можем легко повторно использовать один и тот же метод обучения для разработки наших игровых ботов в разных играх, не беспокоясь о настройке гиперпараметров наших методов. Поистине выдающийся прогресс в области общего искусственного интеллекта.

Полезные ссылки

  1. Полнотекстовый доклад (PDF)
  2. Авторский блогПост

Спасибо за чтение. Если вам понравилась эта статья, вы можете следить за моими работами на Medium, GitHub или подписываться на мой канал на YouTube.