Как DeepMind's Agent57 превзошел людей в 57 играх Atari

Новый агент обучения с подкреплением представляет собой инновации по сравнению с предыдущими архитектурами, достигнув одной из важнейших вех в области искусственного интеллекта.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
(Основные концепции машинного обучения + новаторские исследовательские работы и основы + новости и тенденции в области ИИ) x 5 минут, 3 раза в неделю =… thesequence.substack. com

Игры долгое время считались одной из лучших сред для измерения общих интеллектуальных возможностей агентов искусственного интеллекта (ИИ). В частности, игровые среды приобрели большую популярность в сообществе глубокого обучения с подкреплением (DRL), установив несколько тестов для оценки компетентности различных методов DRL. Среди этих тестов Atari57 - это коллекция из 57 игр Arari, которая является одной из самых сложных задач для агентов DRL. Многие агенты DRL достигли отличных результатов в отдельных играх, но потерпели неудачу при оценке по всей коллекции. Недавно DeepMind представила Agent57, первого агента DRL, способного превзойти стандартный человеческий тест во всех 57 играх Atari.

Что делает Atari57 таким сложным тестом, так это разнообразие игр и задач. Цель среды - оценить, сколько из этих задач может выполнить агент DRL. Стандартный способ оценки производительности в среде Atari57 стал известен как нормализованные оценки человека (HNS). Несмотря на все усилия, ни один алгоритм DRL не смог достичь более 100% HNS во всех 57 играх Atari с одним набором гиперпараметров. Действительно, современные алгоритмы в DRL на основе моделей, MuZero и в DRL без моделей, R2D2 превосходят 100% HNS в 51 и 52 играх соответственно. На следующем рисунке показана производительность агентов DRL с течением времени по сравнению с эталонным тестом HNS.

Путь к Agent57: эволюция методов обучения с подкреплением

Первой попыткой решить проблему Atari57 стал Deep Q-network agent (DQN) и последующие его варианты. Несмотря на заметные достижения, большинству агентов ДХО не удавалось обобщать знания разнообразных задач. Такие игры, как Месть Монтесумы и Ловушка, требуют тщательного изучения, чтобы добиться хорошей производительности. Это делает их уязвимыми для известной проблемы исследования-эксплуатации: следует ли продолжать поведение, которое, как он знает, работает (эксплуатировать), или следует попробовать что-то новое (исследовать), чтобы открыть новые стратегии, которые могут быть еще более успешными?

Другие игры Atari, такие как Solaris и Skiing, представляют собой долгосрочные проблемы с присвоением кредитов: в этих играх сложно сопоставить последствия действий агентов с получаемыми им вознаграждениями.

Для решения некоторых из этих проблем в модель DQN были включены несколько достижений в области глубокого обучения. В частности, развитие таких методов, как кратковременная память и эпизодическая память, сыграло важную роль в разработке более совершенных агентов DRL.

Краткосрочная память

Память была одним из ключевых элементов последних достижений в методах DRL. Такие методы, как долгая долгосрочная краткосрочная память (LSTM), были в авангарде реализации методов краткосрочной памяти, которые позволяют агентам DRL учитывать предыдущие наблюдения при принятии решений. Интересный набор возможностей в агентах DRL развивается при сочетании краткосрочной памяти с методами обучения вне политики. Концептуально методы обучения вне политики позволяют агенту DRL узнавать об оптимальных действиях, даже если они не выполняются. В любой момент агент может совершать случайные действия, но все же может узнать, какое действие будет наилучшим из возможных. Чтобы проиллюстрировать эту концепцию, представьте агент DRL, который изучает, что он может выбрать для запоминания при поиске яблока (например, где находится яблоко). Это отличается от того, что агент мог бы запомнить, ища апельсин, но даже тогда агент все равно мог бы узнать, как найти яблоко, если бы он случайно наткнулся на яблоко.

В контексте задачи Atari57 агент Recurrent Replay Distributed DQN (R2D2) объединил внеполитическое обучение и память для достижения замечательных результатов, хотя и не смог выполнить всю задачу.

Эпизодическая память

Интересным дополнением к краткосрочной памяти стало развитие методов эпизодической памяти. Концептуально эти методы позволяют агенту DRL обнаруживать, когда встречаются новые части игры, поэтому агент может исследовать эти новые части игры в случае, если они приносят вознаграждение. С этой точки зрения эпизодическая память облегчает разработку политики исследования, которая дополняет политику эксплуатации, которая в основном сосредоточена на обучении агента.

Агент Never Give Up (NGU) был разработан для дополнения R2D2 возможностями эпизодической памяти. Важной вехой стало то, что NGU стал первым агентом, получившим положительные награды без знания предметной области в игре Pitfall. Неудивительно, что NGU стал базовой моделью архитектуры Agent57.

Агент57

Agent57 построен на основе NGU, с акцентом на два его ключевых принципа:

· Распределенное обучение с подкреплением

· Исследования, движимые любопытством

Как и NGU и R2D2, Agent57 основан на модели распределенного обучения с подкреплением. Таким образом, Agent57 разделяет процессы сбора данных и обучения, заставляя множество участников передавать данные в центральный буфер воспроизведения с приоритетами. Затем учащийся может выбрать обучающие данные из этого буфера. Учащийся использует этот воспроизведенный опыт для построения функций потерь, с помощью которых он оценивает стоимость действий или событий. Затем он обновляет параметры своей нейронной сети, минимизируя потери. Наконец, каждый субъект использует ту же сетевую архитектуру, что и учащийся, но со своей собственной копией весов.

Еще одна ключевая концепция Agent57 - исследование, основанное на любопытстве. Этот метод разработан, чтобы лучше сбалансировать компромисс между разведкой и эксплуатацией в агентах DRL. В дополнение к этому известному компромиссу агентам DRL, решающим задачу Atari57, также необходимо сбалансировать временной горизонт этих наград. Некоторые задачи потребуют долгосрочного горизонта (например, катание на лыжах, Solaris), где оценка вознаграждений, которые будут получены в далеком будущем, может быть важна для в конечном итоге изучения хорошей политики эксплуатации или даже изучения хорошей политики вообще. В то же время другие задачи могут быть медленными и нестабильными, чтобы их изучить, если будущие награды будут чрезмерно взвешенными. Этот краткосрочный и долгосрочный компромисс было особенно трудно решить с помощью агентов DRL.

Чтобы решить эту проблему, многие методы DRL опираются на архитектуры метаконтроллеров, которые контролируют количество опыта, производимого с помощью различных политик, с переменным временным горизонтом и важностью, приписываемой новизне.

Теперь, когда у нас есть все эти концепции, мы, вероятно, сможем лучше понять архитектуру Agent57. Концептуально Agent57 можно рассматривать как комбинацию архитектуры NGU с метаконтроллером. Функционально Agent57 вычисляет сочетание долгосрочной и краткосрочной внутренней мотивации для изучения и изучения семейства политик, где выбор политики выбирается метаконтроллером. Мета-контроллер позволяет каждому действующему субъекту агента выбирать различный компромисс между краткосрочными и долгосрочными показателями, а также исследовать новые состояния и использовать то, что уже известно. Agent57 продемонстрировал несколько улучшений по сравнению с архитектурами NGU и R2D2, например, адаптивное исследование и обратное распространение во времени.

DeepMind сравнил Agent57 со всем набором игр для Atari57. Агент смог выполнить всю задачу, превзойдя производительность предыдущих агентов DRL. Agent57 мог масштабироваться с увеличением объема вычислений: чем дольше он тренировался, тем выше его оценка. Хотя вычислительные затраты для большинства организаций запрещены.

Agent57 представляет собой важную веху в области глубокого обучения, поскольку это первый агент DRL, выполнивший тест Atari57. Помимо этого, архитектура Agent57 может быть применима ко многим задачам глубокого обучения, поскольку она решает такие важные задачи, как разведка и эксплуатация, а также предоставление долгосрочных кредитов. Будет интересно увидеть следующую эволюцию этой архитектуры.

Как DeepMind's Agent57 превзошел людей в 57 играх Atari

Путь к Agent57: эволюция методов обучения с подкреплением

Краткосрочная память

Эпизодическая память

Агент57

Вопросы по теме