ЖЕМЧУЖИНА: вероятностные вложения для актера-критика RL

Дайвинг в ЖЕМЧУЖИНУ | Навстречу AI

ЖЕМЧУЖИНА: вероятностные вложения для актерско-критического RL

Эффективный по образцу мета-метод обучения с подкреплением

Вступление

Мета-обучение с подкреплением может быть особенно сложной задачей, потому что агент должен не только адаптироваться к новым входящим данным, но и найти эффективный способ исследования новой среды. Текущие алгоритмы мета-RL в значительной степени полагаются на опыт работы с политиками, что ограничивает их эффективность выборки. Что еще хуже, у большинства из них отсутствуют механизмы, позволяющие рассуждать о неопределенности задачи при адаптации к новой задаче, что ограничивает их эффективность в редких проблемах с вознаграждением.

Мы обсуждаем алгоритм мета-RL, который пытается решить эти проблемы. Вкратце, алгоритм, а именно вероятностные вложения для субъективно-критического RL (PEARL), предложенный Rakelly & Zhou et al. в ICLR 2019 состоит из двух частей: он изучает вероятностный скрытый контекст, который в достаточной степени описывает задачу; обусловленный этим скрытым контекстом, алгоритм RL вне политики учится предпринимать действия. В этой структуре вероятностный скрытый контекст служит состоянием веры в текущую задачу. Обусловляя алгоритм RL скрытым контекстом, мы ожидаем, что алгоритм RL научится различать разные задачи. Более того, это отделяет вывод задачи от выполнения действий, что, как мы увидим позже, делает алгоритм вне политики применимым к метаобучению.

Остальная часть статьи разделена на три части. Во-первых, мы представляем архитектуру логического вывода, краеугольный камень PEARL. Основываясь на этом, мы утверждаем эффективность внеполитического обучения в PEARL и кратко обсуждаем конкретный внеполитический метод, принятый Rakelly & Zhou et al. Наконец, мы объединяем оба этих компонента, чтобы сформировать окончательный алгоритм PEARL.

Архитектура вывода

Сеть вывода фиксирует информацию о том, как текущая задача должна выполняться в скрытой вероятностной контекстной переменной Z, на которой мы обуславливаем политику как 𝜋 (a | s, z) в чтобы приспособить его поведение к задаче. В этом разделе мы сосредоточимся на том, как сеть вывода использует данные из различных обучающих задач, чтобы научиться делать выводы о значении Z из недавней истории опыта в новой задаче.

Для конкретной задачи мы отбираем пакет недавно собранных переходов и кодируем каждый переход cₙ через сеть 𝜙, чтобы выделить вероятностный скрытый контекст 𝛹 _𝜙 (z | cₙ), обычно гауссовский апостериорный. Затем мы вычисляем произведение всех этих гауссовских факторов, чтобы сформировать апостериорную оценку скрытых переменных контекста:

На следующем рисунке показан этот процесс.

Обратите внимание, что используемые здесь переходы выбираются случайным образом из набора недавно собранных переходов, что отличается от переходов, которые мы позже используем для обучения алгоритма вне политики. Авторы также экспериментируют с другими архитектурами и стратегиями выборки, такими как RNN с последовательными переходами, ни одна из них не демонстрирует превосходной производительности.

Оптимизация

Мы оптимизируем сеть вывода q_𝜙 (z | c) с помощью вариационной нижней границы:

где R - цель некоторой последующей задачи, а 𝒩 (0, I) - априорная единица по Гауссу. Можно легко получить эту цель, следуя выводам 𝛽-вариационного автокодировщика, если мы возьмем R как потерю восстановления. Ракелли и Чжоу и др. эмпирически установлено, что обучение кодировщика для восстановления функции значения состояния-действия (с помощью Q -функции) превосходит его оптимизацию для максимизации отдачи от актора (с помощью политики) или для восстановления состояний и вознаграждений (с помощью VAE состав).

Почему бы не использовать детерминированный контекст?

Преимущество вероятностного контекста заключается в том, что он может моделировать состояние доверия к задаче, что имеет решающее значение для последующего внеполитического алгоритма для достижения глубокого исследования. Глубокое исследование особенно важно в условиях редких наград, когда последовательная стратегия исследования более эффективна, чем случайное исследование. Мы отсылаем заинтересованного читателя к разделу 5 Osband et al. 2016 для наглядного примера. На следующем рисунке эти два контекста сравниваются с проблемой 2D-навигации с редким вознаграждением.

Объедините внеполитический RL с мета-обучением

Современные алгоритмы метаобучения в первую очередь полагаются на предположение, что распределение данных, используемых для адаптации, будет совпадать между мета-обучением и мета-тестом. В RL это означает, что данные о политике должны использоваться во время мета-обучения, поскольку во время мета-тестирования данные о политике будут использоваться для адаптации. PEARL снимает это ограничение, перекладывая бремя вывода задачи с метода RL на сеть вывода. При этом PEARL больше не нужно настраивать метод RL во время мета-тестирования, и он может применять внеполитический метод во время мета-обучения. Фактически, единственная модификация метода RL вне политики состоит в том, чтобы настроить каждую сеть на z и оставить другие как есть.

Официальная реализация PEARL использует Soft Actor-Critic (SAC), поскольку SAC демонстрирует хорошую эффективность и стабильность выборки, а также имеет вероятностную интерпретацию, которая хорошо интегрируется с вероятностными скрытыми контекстами. Короче говоря, SAC состоит из пяти сетей: двух функций значения состояния V и \ bar V (\ bar V - целевая сеть V), две функции значения действия Q₁ и Q₂ и функция политики 𝜋; он оптимизирует эти функции с помощью следующих функций потерь

где Q = min (Q₁, Q₂) и \ bar z указывает, что градиенты не вычисляются через него. Отсылаем заинтересованного читателя в мой личный блог для более подробной информации о SAC.

Алгоритм

Теперь, когда мы уже представили все основные компоненты, пришло время собрать их вместе и представить весь алгоритм.

Мета-обучение

Стоит обратить внимание на несколько вещей:

Контекст c - это кортеж (s, a, r) ; он также может включать s ’ для распределения задач, в котором динамика меняется между задачами.
В строках 6 и 7 существует неявный перенос цикла for, так что z повторно дискретизируется после каждой траектории. То же самое и со строками 8 и 9. Также обратите внимание, что во многих задачах мы не добавляем данные, собранные в Строке 9, в буфер контекста (num_steps_posterior равен нулю в большинстве конфигураций); Это говорит о том, что контекст c в строке 12 собирается политикой, обусловленной z из предыдущего распределения. Ракелли и Чжоу и др. обнаружил, что этот параметр работает лучше для таких форм вознаграждений, в которых исследование не имеет решающего значения для определения и решения задачи. [5]
Сеть вывода q_𝜙 (z | c) обучается с использованием градиентов из обновления Беллмана Q -сети, как мы заявляли ранее.

Мета-тест

В отличие от предыдущих методов, PEARL не выполняет точную настройку какой-либо сети при мета-тестировании; он полагается на возможность обобщения сети вывода для адаптации новых задач.

Результаты экспериментов

На приведенном выше рисунке показано выполнение задачи при использовании различных подходов в шести средах непрерывного управления. Эти семейства задач передвижения требуют адаптации по функциям вознаграждения (направление ходьбы для Half-CheetahFwd-Back, Ant-Fwd-Back, Humanoid-Direc-2D, скорость цели для Half-Cheetah-Vel и местоположение цели для Ant-Goal2D) или поперек. динамика (параметры случайной системы для Walker-2D-Params). Мы видим, что PEARL превосходит предыдущие алгоритмы по эффективности выборки в 20–100 раз, а также по асимптотической производительности в этих задачах.

использованная литература

Кейт Ракелли, Аурик Чжоу, Дейдра Куиллен, Челси Финн и Сергей Левин. Эффективное обучение мета-подкрепления вне политики с помощью вероятностных переменных контекста
Ян Осбанд, Чарльз Бланделл, Александр Прицель и Бенджамин Ван Рой. Глубокое исследование через Bootstrapped DQN
Туомас Хаарноя, Аурик Чжоу, Питер Аббил и Сергей Левин. Мягкий критик-субъект: обучение с глубоким подкреплением с максимальной энтропией вне политики со стохастическим субъектом
код: https://github.com/katerakelly/oyster
Https://github.com/katerakelly/oyster/issues/8#issuecomment-525923243