Адаптация агентов RL во время развертывания без вознаграждения

Обзор статьи Н. Хансена и др. «Самоконтрольная адаптация политики во время развертывания».

Одним большим ограничением агентов обучения с подкреплением на основе изображений является то, что их производительность сильно падает, если во входные данные вносятся значительные визуальные изменения от времени обучения до времени развертывания, даже если основная задача остается той же. Это не то, с чем мы, люди, так много боремся. Например, если вы очень хорошо научитесь играть в одну конкретную игру, вы можете очень легко сыграть в другую игру того же жанра, даже если вы играете в нее впервые.

Итак, сегодня я хочу поделиться статьей, в которой пытается решить эту проблему и представить адаптируемость агентов RL, чтобы они тоже могли играть в несколько игр с разной графикой, как люди. Он называется Самоконтролируемая адаптация политик во время развертывания и представляет метод адаптации нашего агента RL к средам развертывания, которые отличаются от нашей среды обучения. Это обещает упростить обучение игровых агентов RL в определенной среде, а затем перенести их в разные игры, принадлежащие к тому же жанру.

Давайте посмотрим, как этот метод добавляет адаптацию во время развертывания, когда нет доступных сигналов вознаграждения для точной настройки изученной политики RL-агента.

Он разделяет обычную сеть политик контроллера на две части: одна часть отвечает за изучение полезных скрытых представлений из входных пикселей, а другая часть изучает, какие действия следует предпринять на основе этих скрытых представлений. Таким образом, во время обучения агент учится на сигнале вознаграждения в цикле обучения RL, и здесь также есть дополнительная сеть, которая изучает последовательность перехода промежуточных скрытых представлений с использованием самоконтролируемого обучения.

Здесь используется задача самоконтроля, которая так же проста, как поворот изображения на определенный угол, например, 90 или 180, и попытка определить угол поворота как задачу контролируемой классификации. А вот и ключевая часть. Во время развертывания у нас нет сигнала вознаграждения, но мы все еще можем точно настроить нашу сеть, используя ту же задачу самоконтроля. Это позволяет нашему скрытому представлению адаптироваться к визуальным изменениям во входном изображении, в то же время позволяя нам получать наши изученные действия контроллера из этого скрытого.

Результаты, представленные в документе, демонстрируют явное улучшение производительности, полученное с помощью этого метода.

Приложение к играм

Это направление исследований сделает гораздо более практичным обучать игровых ботов с помощью обучения с подкреплением в реальной жизни, поскольку мы можем обучить их играть в одну игру и использовать того же агента для игры в другие игры того же жанра с простой адаптацией под самоконтролем. Это делает игровой ИИ на шаг ближе к тому, чтобы стать более человечным, как в будущем.

Полезные ссылки

  1. Полнотекстовый доклад (PDF)
  2. Авторский блог
  3. Код (GitHub)

Спасибо за чтение. Если вам понравилась эта статья, вы можете следить за моими работами на Medium, GitHub или подписываться на мой канал на YouTube.