Авторы Сиддхарт Редди и Ян Лейке. Размещено с веб-сайта DeepMind.

TL; DR: мы представляем метод обучения агентов обучения с подкреплением на основе отзывов людей при наличии неизвестных небезопасных состояний.

Когда мы обучаем агентов обучения с подкреплением (RL) в реальном мире, мы не хотим, чтобы они исследовали небезопасные состояния, такие как загонять мобильного робота в канаву или писать неловкое электронное письмо своему начальнику. Обучение агентов RL при наличии небезопасных состояний известно как проблема безопасного исследования. Мы решаем самую сложную версию этой проблемы, в которой агент изначально не знает, как работает среда или где находятся небезопасные состояния. У агента есть один источник информации: отзывы о небезопасных состояниях от человека-пользователя.

Существующие методы для обучения агентов на основе отзывов людей просят пользователя оценить данные агента, действующего в окружающей среде. То есть - чтобы узнать о небезопасных состояниях, агенту сначала необходимо посетить эти состояния, чтобы пользователь мог оставить отзыв о них. Это делает предыдущую работу неприменимой к задачам, требующим безопасного исследования.

В нашей последней статье мы предлагаем метод моделирования вознаграждения, который работает в два этапа. Во-первых, система поощряется к исследованию широкого диапазона состояний посредством искусственно созданного гипотетического поведения. Пользователь предоставляет обратную связь об этом гипотетическом поведении, и система в интерактивном режиме изучает модель функции вознаграждения пользователя. Только после того, как модель успешно научится предсказывать награды и небезопасные состояния, мы развертываем агент RL, который безопасно выполняет желаемую задачу.

Мы начинаем с генеративной модели начальных состояний и модели прямой динамики, обученной на внеполитических данных, таких как случайные траектории или безопасные демонстрации экспертов. Наш метод использует эти модели для синтеза гипотетического поведения, просит пользователя пометить поведение вознаграждением и обучает нейронную сеть предсказывать эти вознаграждения. Ключевая идея - активно синтезировать гипотетические модели поведения с нуля, чтобы сделать их как можно более информативными, без взаимодействия с окружающей средой. Мы называем этот метод синтезом запроса на вознаграждение через оптимизацию траектории (ReQueST).

Синтез информативных гипотез с помощью оптимизации траектории

Для того, чтобы этот подход работал, нам нужна система для моделирования и изучения широкого спектра моделей поведения, чтобы эффективно обучать модель вознаграждения. Чтобы стимулировать исследование во время обучения модели вознаграждения, ReQueST синтезирует четыре различных типа гипотетического поведения с помощью оптимизации траектории градиентного спуска. Первый тип гипотетического поведения максимизирует неопределенность множества моделей вознаграждения, вызывая у пользователей ярлыки для поведения, имеющего наивысшую информационную ценность. Второй тип гипотетического поведения максимизирует прогнозируемое вознаграждение, выявляя поведение, для которого модель вознаграждения может неправильно предсказывать высокие вознаграждения; то есть вознаграждение за взлом. Третий тип гипотетического поведения сводит к минимуму прогнозируемое вознаграждение, добавляя потенциально небезопасное гипотетическое поведение к обучающим данным. Эти данные позволяют модели вознаграждения узнавать о небезопасных состояниях. Четвертый тип гипотетического поведения максимизирует новизну траекторий, поощряя исследование широкого диапазона состояний, независимо от прогнозируемого вознаграждения.

Обучение модели вознаграждения с использованием контролируемого обучения

Каждое гипотетическое поведение состоит из последовательности переходов состояний (s, a, s ’). Мы просим пользователя пометить каждый переход состояния наградой r. Затем, учитывая помеченный набор данных переходов (s, a, r, s ’), мы обучаем нейронную сеть предсказывать вознаграждения с использованием цели максимального правдоподобия. Мы используем стандартные методы обучения с учителем, основанные на градиентном спуске.

Развертывание агента RL на основе модели

Когда пользователь удовлетворен моделью вознаграждения, мы развертываем агент на основе планирования, который использует управление с прогнозированием модели (MPC) для выбора действий, которые оптимизируют полученные вознаграждения. В отличие от безмодельных алгоритмов RL, таких как Q-обучение или методов градиента политики, которые обучаются методом проб и ошибок, основанные на модели алгоритмы RL, такие как MPC, позволяют агенту избегать небезопасных состояний во время развертывание, используя динамическую модель, чтобы предвидеть последствия своих действий.

Экспериментальная оценка

Мы оцениваем ReQueST с помощью смоделированных пользователей в задаче 2D-навигации на основе состояний и в видеоигре Car Racing на основе изображений. Наши результаты показывают, что ReQueST удовлетворяет трем важным свойствам безопасности: он может обучить модель вознаграждения обнаруживать небезопасные состояния, не посещая их; он может исправить взлом за вознаграждение перед развертыванием агента; и он имеет тенденцию изучать надежные модели вознаграждения, которые хорошо работают при переносе в новую среду.

Тестирование обобщения в игрушечной 2D навигационной задаче

Чтобы проверить обобщение модели вознаграждения, мы создали задачу 2D-навигации с отдельными средами обучения и тестирования.

Мы намеренно вводим значительный сдвиг в начальное распределение состояний: агент запускается в нижнем левом углу (0, 0) в обучающей среде и в верхнем правом углу (1, 1) в тестовой среде. Предыдущие методы, которые собирают данные путем развертывания агента в обучающей среде, вряд ли узнают о ловушке в правом верхнем углу, потому что они сразу находят цель, а затем не могут продолжить исследование. ReQueST синтезирует множество гипотетических состояний, включая состояния внутри ловушки и вокруг нее. Пользователь помечает эти состояния наградами, с помощью которых ReQueST изучает надежную модель вознаграждения, которая позволяет агенту перемещаться по ловушке в тестовой среде.

Тестирование масштабируемости в автомобильных гонках на основе изображений

Чтобы проверить, масштабируется ли ReQueST до доменов с многомерными непрерывными состояниями, такими как изображения, мы используем видеоигру Car Racing из OpenAI Gym.

В дополнение к сравнительному анализу ReQueST с предыдущими методами, мы провели исследование гиперпараметрической развертки и абляции, в котором мы варьировали степень регуляризации модели динамики во время оптимизации траектории, а также подмножество гипотетических гипотез, синтезированных для измерения чувствительности ReQueST к этим настройкам. Мы обнаружили, что ReQueST может выбирать между созданием реалистичных и информативных запросов, и что оптимальный компромисс варьируется в зависимости от домена. Мы также обнаружили, что полезность каждого из четырех гипотетических вариантов поведения зависит от предметной области и количества собранных обучающих данных.

Что дальше?

Насколько нам известно, ReQueST - это первый алгоритм моделирования вознаграждения, который безопасно узнает о небезопасных состояниях и масштабируется для обучения моделей вознаграждения нейронной сети в средах с многомерными непрерывными состояниями.

ReQueST опирается на генеративную модель начальных состояний и модель прямой динамики, которую может быть трудно получить для визуальных областей со сложной динамикой. Пока что мы продемонстрировали эффективность ReQueST только в моделируемых областях с относительно простой динамикой. Одним из направлений будущей работы является тестирование ReQueST в трехмерных областях с более реалистичной физикой и другими агентами, действующими в окружающей среде.

  • Если вы хотите узнать больше, ознакомьтесь с нашим препринтом на arXiv: Сиддхарт Редди, Анка Д. Драган, Сергей Левин, Шейн Легг, Ян Лейке, Изучение человеческих целей путем оценки гипотетического поведения, arXiv, 2019.
  • Чтобы стимулировать репликацию и расширения, мы выпустили наш код.
  • Послушайте наш подкаст, чтобы узнать больше о приверженности DeepMind созданию безопасного ИИ.

Спасибо Заку Кентону и Келли Клэнси за отзывы о ранних черновиках этой статьи и Пауло Эстриге за его дизайнерскую работу.