Обучение с подкреплением стало настоящим прорывом благодаря значительному успеху DeepMind в демонстрации того, как искусственный интеллект может ускорить получение новых знаний. RL считается мертвым полем с точки зрения медленного обучения, огромного количества тренировок и требуемых больших вычислительных мощностей. Тем не менее, RL может быть влиятельным и действенным в помощи человеку, поскольку именно так человеческий мозг учится принимать решения. Вызывает много споров, Deep RL был предметом активных исследований, и проблема разведки и эксплуатации захватила многие любопытные умы. На сегодняшний день выдвинуто множество исследовательских подходов, таких как - байесовский RL и PAC-MDP (для дискретных пространств состояний и действий), действующие случайным образом, метод Больцмана и использующий гауссовский шум на элементах управления в методах градиента политики (для пространств состояний и действий, где дискретизация неосуществимо) и многое другое. Управляемая любопытством стратегия исследования VIME - Variational Information Maximizing Exploration [1], которая использует полученную информацию о внутреннем убеждении агента в динамической модели как движущей силе, превзошла эвристические методы исследования в различных непрерывных исследованиях. управлять задачами и алгоритмами, в том числе задачами с очень редкими наградами.

Мотивация использования VIME заключается в том, что при проведении исследования мы предпочитаем, чтобы агент предпринимал действия, приводящие к состояниям, которые они считают неожиданными, то есть состояниям, вызывающим большие обновления в распределении динамической модели. Итак, цель здесь состоит в том, чтобы максимально снизить неопределенность в отношении динамики. Часто бывает так, что действия, которые максимизируют уменьшение энтропии (т. Е. Неизученные состояния), приводят к состояниям, которые являются максимально информативными.

Прежде чем приступить к пониманию VIME, необходимо кратко рассказать о концепциях, используемых в методе VIME.

Разведка и разработка:

Исследование - это делать то, чего раньше не делали, в надежде получить еще более высокую награду. Агент экспериментирует с новыми стратегиями, которые могут улучшить отдачу в долгосрочной перспективе. При эксплуатации агент максимизирует вознаграждение за счет заведомо успешного поведения.

Байесовская нейронная сеть (BNN):

Байесовская нейронная сеть - это нейронная сеть с предварительным распределением весов (Neal, 2012). Короче говоря, это нейронная сеть, которая действует как условная модель p, которая параметризуется параметрами или весами θ сети и выводит y , когда задан некоторый ввод x [2]. Вероятность появления конкретной точки данных D определяется параметром θ. Другими словами, мы можем сказать, что приоритизируем несколько выборок данных с помощью нашего параметра θ. Это основной мотив, по которому VIME использует BNN, а не только NN.

Вариационный байесовский:

Вариационный байесовский метод используется для аппроксимации трудноразрешимых интегралов, возникающих при байесовском выводе и машинном обучении. Обычно он используется в сложных статистических моделях, состоящих из данных, а также неизвестных параметров и скрытых переменных. Вариационные байесовские методы в основном используются для двух целей:

  1. Обеспечить аналитическое приближение к апостериорной вероятности ненаблюдаемых переменных, чтобы сделать статистический вывод по этим переменным.
  2. Вывести нижнюю границу предельного правдоподобия наблюдаемых данных.

KL Дивергенция:

Дивергенция Кульбака-Лейблера - это мера того, как распределение вероятностей отличается от другого распределения вероятностей. Классически в байесовской теории существует некоторое истинное распределение P (X); мы хотим оценить с помощью приблизительного распределения Q (X).

Как показано на рисунке, у нас есть фактическое распределение P (отображается синим цветом), которое мы хотели бы аппроксимировать распределением Гаусса Q (отображается розовым цветом) [4]. В этом контексте дивергенция KL измеряет расстояние от приблизительного распределения Q до истинного распределения P. Оно вычисляется следующим образом:

В RL используется обратная дивергенция KL. В обратном KL мы отбираем точки из Q (X) и пытаемся максимизировать вероятность этих точек под P (X), то есть w здесь Q (⋅) имеет высокую вероятность, P (⋅) также должно иметь высокую вероятность.

А теперь вернемся к VIME,

Как указывалось ранее, цель состоит в максимальном получении информации. Информация, полученная после выполнения действия, получается путем вычисления разницы в энтропии состояний до и после выполнения действия. Максимизация получения информации может быть формализована как максимизация суммы сокращений энтропии.

Учитывая, что история агента до момента времени t равна ξt = {s0, a0, s1, a1,…, st}, взаимная информация модели динамики до и после принятия мер может быть получена с использованием расхождения KL следующим образом:

Здесь мы сравниваем апостериорную вероятность до и после выполнения действия с помощью дивергенции KL для вычисления полученной информации. Агент моделирует динамику среды с помощью модели

параметризуется случайной величиной Θ со значениями θ ∈ Θ. Здесь S обозначает состояние, а a обозначает действие, выполняемое в момент t. Эта апостериорная вероятность параметров динамики среды вычисляется с использованием вариационного вывода. Эта апостериорная вероятность неразрешима и поэтому аппроксимируется с помощью вариационного распределения q.

Здесь D обозначает выборки данных. Приближенное распределение q представлено как факторизованное распределение и использует байесовскую нейронную сеть, параметризованную полностью факторизованным гауссовым распределением. Используя вариационное распределение q, мы можем аппроксимировать наше апостериорное распределение, минимизируя расхождение KL между двумя распределениями:

Минимизируя расхождение KL, мы максимально приближаем наше вариационное распределение q к апостериорному распределению p. Это делается путем максимизации вариационной нижней границы L [q]:

Чтобы побудить агента выполнить действие, позволяющее получить больше информации, ему дается дополнительное внутреннее вознаграждение. Вместо явного вычисления прироста информации используется приближение, приводящее к следующему общему вознаграждению:

Гиперпараметр η контролирует количество стимулов к исследованию (любопытство). Поскольку мы предполагаем, что вариационное приближение является полностью факторизованным гауссовым, расхождение KL от апостериорного к априорному имеет особенно простой вид:

Таким образом, использование накопленной информации в этой модели усвоенной динамики в качестве внутреннего вознаграждения позволяет агенту одновременно оптимизировать как внешнее вознаграждение, так и внутреннее удивление. Эмпирические результаты показывают, что VIME работает значительно лучше, чем эвристические методы исследования, в различных задачах и алгоритмах непрерывного контроля. Эксперименты показывают, что при дополнении VIME алгоритмом RL есть значительные улучшения, несмотря на то, что сигналы о вознаграждении редки.

Использованная литература :

[1] Бумага VIME

[2] Байесовская нейронная сеть

[3] Вариационный вывод

[4] Дивергенция КЛ