В последние годы многие лаборатории искусственного интеллекта работают над изучением глубокого обучения с подкреплением (DRL), которое, как ожидается, станет основной технологией в будущем. Я также занимаюсь исследованиями DRL в университете Кейо. Здесь я напишу свой обзор недавних ДХО в следующих нескольких статьях. Все они предполагают, что у читателей есть базовые знания об обучении с подкреплением.

В этой статье я представляю Deep Q-Network (DQN), который является первым методом глубокого обучения с подкреплением, предложенным DeepMind. После публикации статьи в журнале Nature в 2015 году к этой области присоединились многие исследовательские институты, потому что глубокая нейронная сеть может дать RL возможность напрямую работать с многомерными состояниями, такими как изображения, благодаря методам, используемым в DQN. Посмотрим, чего добилась DQN.

Аркадная среда обучения (ALE)

Обучающая среда Arcade: платформа оценки для общих агентов была опубликована в 2013 году, в которой предлагаются обучающие среды для ИИ. У ALE есть много игр, изначально разработанных для классической игровой консоли Atari 2600. Вероятно, некоторые из игр, такие как Pong, SpaceInvaders, PacMan и Breakout, хорошо известны всем.

У этого эмулятора есть миссия, которая предлагает платформу, на которой ИИ может играть во множество игр без каких-либо конкретных функций. До того, как DQN был опубликован, агенту RL в качестве входных данных требовались созданные вручную функции. Например, позиции захватчиков явно извлекаются, когда агент RL играет SpaceInvaders. Но эта информация совершенно бесполезна в игре Breakout. Поэтому агенты не могут полагаться на такие функции, чтобы играть во все игры в ALE.

Глубокая нейронная сеть (DNN)

AlexNet достиг невероятных результатов в ILSVRC 2012, соревновании по классификации изображений с использованием DNN.

Самое замечательное в DNN - это извлечение представлений функций через обратное распространение.

Благодаря этой способности классификаторам больше не нужны специальные функции. После соответствующего множества обратных распространений DNN знает, какая информация, например цвет или форма, важна для выполнения задачи.

Внесение DNN в RL

Люди естественно думают, что DNN позволяет агенту RL связывать изображения со значениями. Однако все не так просто.

Naive DQN имеет 3 сверточных слоя и 2 полностью связанных слоя для оценки значений Q непосредственно из изображений. С другой стороны, линейная модель имеет только 1 полностью связанный слой с некоторыми методами обучения, обсуждаемыми в следующем разделе. Обе модели изучают значения Q в режиме обучения Q. Как вы видите в приведенной выше таблице, наивная DQN дает очень плохие результаты, хуже, чем даже линейная модель, потому что DNN легко переоснащается в онлайн-обучении с подкреплением.

Глубокая Q-сеть

DQN представлен в двух статьях: Игра в Atari с глубоким обучением с подкреплением в NIPS в 2013 году и Контроль на уровне человека посредством глубокого обучения с подкреплением в журнале Nature в 2015 году. Интересно, что в период с 2013 по 2015 год было всего несколько статей о DRN. Предполагаю, что причина в том, что люди не могли воспроизвести реализацию DQN без информации в версии Nature.

DQN преодолевает нестабильное обучение, используя в основном 4 метода.

  • Опыт повтора
  • Целевая сеть
  • Награды за вырезку
  • Пропуск кадров

Я объясняю каждую технику одну за другой.

Опыт Replay

Воспроизведение опыта изначально предлагается в Обучение с подкреплением для роботов, использующих нейронные сети в 1993 году. DNN легко переигрывает текущие эпизоды. После того, как DNN переоборудован, трудно произвести различный опыт. Чтобы решить эту проблему, Experience Replay сохраняет впечатления, включая переходы между состояниями, награды и действия, которые являются необходимыми данными для выполнения Q-обучения, и создает мини-пакеты для обновления нейронных сетей. Этот метод имеет следующие достоинства.

  • уменьшает корреляцию между опытом обновления DNN
  • увеличивает скорость обучения с помощью мини-пакетов
  • повторно использует прошлые переходы, чтобы избежать катастрофического забывания

Целевая сеть

При вычислении ошибки TD целевая функция часто изменяется с помощью DNN. Нестабильная целевая функция затрудняет обучение. Таким образом, метод Target Network фиксирует параметры целевой функции и заменяет их последней сетью каждые тысячи шагов.

Награды за вырезание

В каждой игре есть разные шкалы очков. Например, в Pong игроки могут получить 1 очко, выиграв игру. В противном случае игроки получают -1 балл. Однако в SpaceInvaders игроки получают от 10 до 30 очков за победу над захватчиками. Эта разница сделает обучение нестабильным. Таким образом, техника Clipping Rewards фиксирует очки, при которых все положительные награды имеют значение +1, а все отрицательные награды - -1.

Пропуск кадров

ALE может обрабатывать 60 изображений в секунду. Но на самом деле люди не совершают столько действий за секунду. AI не нужно вычислять значения Q каждый кадр. Таким образом, метод пропуска кадров заключается в том, что DQN вычисляет значения Q каждые 4 кадра и использует последние 4 кадра в качестве входных данных. Это снижает вычислительные затраты и позволяет собрать больше опыта.

Представление

Все вышеперечисленные методы позволяют DQN добиться стабильной тренировки.

В версии Nature он показывает, насколько опыт воспроизведения и целевая сеть способствуют стабильности.

Опыт Replay очень важен в DQN. Целевая сеть также увеличивает свою производительность.

Заключение

DQN добился контроля на человеческом уровне во многих играх Atari с помощью более 4 техник. Однако есть игры, в которые DQN не может играть. В этой серии я представлю статьи, которые борются с ними.

Затем я предлагаю TensorFlow реализацию DQN.

  • Добро пожаловать в Deep Reinforcement Learning Part2: DQN in TensorFlow (скоро)