Уменьшение отклонения от базового уровня

Это продвинутый теоретический блог, в котором основное внимание уделяется одному из самых интригующих и сложных аспектов алгоритмов градиента политики. Предполагается, что читатель имеет некоторое базовое понимание алгоритмов градиента политики: популярный класс алгоритмов обучения с подкреплением, который оценивает градиент для приближения функции. Вы можете обратиться к главе 13 Обучение с подкреплением: Введение для понимания алгоритмов градиента политики.

Быстрый пересмотр градиентов политики!

При настройке градиента политики идея состоит в том, чтобы напрямую параметризовать политику. Оптимальная политика - это политика с функцией наивысшего значения. Это проще и, безусловно, отличается от метода, основанного на ценности, когда мы сначала находим функции ценности оптимальной политики и извлекаем из нее политику.
Давайте быстро выведем алгоритм градиента политики, прежде чем мы углубимся в его более сложные аспекты.

Как я упоминал ранее, мы параметризуем политику и представим параметры с помощью ϴ. Цель состоит в том, чтобы оптимизировать эти «ПОЛИТИКА» параметры, для которых нам нужен «ГРАДИЕНТ».
мы можем использовать среднее вознаграждение за временной шаг как меру эффективности политики.

Если мы воспроизводим политику бесконечное количество раз, вероятность того, что эта политика посетит конкретное состояние, сходится к уникальному стационарному распределению d (s). Стационарное распределение состояний играет очень важную роль в функции среднего вознаграждения, потому что нам нужно учитывать начальное состояние параметризованной политики. Мы не будем вдаваться в вывод этой более общей теоремы. Вы можете обратиться к главе 13 Обучение с подкреплением: Введение [1] для доказательства. Наше окончательное и простое выражение градиентного члена в алгоритме градиента политики (алгоритм градиента политики Монте-Карло):

Недостатки: большое количество обновлений.

Основным недостатком алгоритма градиента политики Монте-Карло является то, что возвращаемые значения «G (i)» часто имеют высокую дисперсию. Высокая дисперсия оцененных градиентов приведет к медленной сходимости и ненадежным обновлениям. Эта высокая дисперсия этих оценок градиентов является хорошо изученной темой в исследованиях RL, и было обнаружено несколько методов уменьшения дисперсии. Поскольку мы имеем дело со стохастической политикой, мы могли бы разумно принять переменную доходность (G (t)) как случайную величину. Если мы вычислим значения этих случайных величин путем выборки траектории с использованием параметризованной политики: очевидно, что вариация случайной величины G (t) очень велика.

Давайте перейдем к «Введение базовых показателей для уменьшения дисперсии»: один из хорошо изученных методов уменьшения дисперсии, который обеспечивает быстрое и устойчивое обновление градиента.

Введение базовых показателей для уменьшения отклонений

Один из способов справиться с большой дисперсией градиентов - вычесть значение из каждого G (i). Это значение называется базовой линией в алгоритмах градиента политики. Этот метод уменьшения дисперсии не является специфическим для теории RL, мы встречаемся с ним во многих темах статистики. Базовым показателем может быть любая функция, если она не зависит от действия. Мы увидим, почему базовый уровень может быть эффективным, если он является функцией состояния.

Интуитивно мы можем думать о Gt -b (st) как об оценке того, насколько лучше мы сделали после временного шага t, чем ожидалось по базовому уровню b (st). На первый взгляд, мы можем подумать, что базовая линия на самом деле не помогает, но давайте математически разберемся, как базовые линии уменьшают дисперсию градиентов. Следует отметить, что введение базового уровня не вызывает систематической ошибки. Величину Gt -b (st) обычно называют преимуществом At.

Вносит ли базовый уровень предвзятость?

Еще один важный аспект, который необходимо тщательно изучить, заключается в том, что если вычитание базовой линии из доходности в члене градиента вносит какое-либо смещение в расчет градиента? Математически легко определить, оказывает ли базовая линия какое-либо предвзятое влияние на обновление градиента.

Некоторые шаги упускаются из виду в следующем доказательстве; полное доказательство см. В главе 13 Обучение с подкреплением: Введение.

Итак, из приведенного выше доказательства ясно, что введение базовой линии в член градиента не вызывает смещения при вычислении градиента.

Заключительные замечания

Я надеюсь, что мои читатели сочтут этот блог очень полезным. Я попытался свести к минимуму математическую строгость, сохранив при этом суть. В этом блоге я считаю, что мне удалось представить использование базовых показателей в градиентах политики. Я также попытался математически доказать, как введение базовых показателей приводит к беспристрастным и уменьшенным обновлениям дисперсии.
В следующем блоге этой серии я постараюсь объяснить оптимальные базовые уровни и их более простые альтернативы.

Спасибо за ваше время.



Получите доступ к экспертному обзору - Подпишитесь на DDI Intel