Все о схеме резервного копирования

Схема, объясняющая алгоритмы обучения с подкреплением

Как мы знаем, картинка стоит тысячи слов; Схема резервного копирования дает визуальное представление о различных алгоритмах и моделях обучения с подкреплением.

Процесс резервного копирования (Операция обновления) - это графическое представление алгоритма, представляющее состояние, действие, переход между состояниями, вознаграждение и т. Д. Функция значения (состояние или состояние-действие) передается обратно в состояние (или состояние-действие) из его состояния-преемника или состояния-действия.

На схеме резервного копирования значение состояния представлено полым кружком, а значение состояния-действия или значение действия представлено сплошным кружком. Действие представлено стрелкой, начинающейся с состояния. Награда обычно указывается после значения действия. Действие, которое приводит к максимальному значению действия, отображается в виде дуги, начинающейся с состояния. См. Диаграммы ниже для стандартного представления значения состояния, значения действия, действия, максимального значения действия, перехода между состояниями.

Функция State Value при стохастической политике π

Теперь я расскажу, как можно показать значение состояния с помощью диаграмм резервного копирования.

  1. s - начальное состояние, и это корневой узел
  2. из состояния s может быть три действия, показанных стрелкой, и агент выполняет действие в соответствии с политикой π
  3. значение действия или действия в состоянии показано сплошным кружком (это соглашение, согласно которому действие выполняется из состояния, а вознаграждение получается после его выполнения).
  4. После выполнения действия агент может оказаться в другом состоянии, если это стохастическая среда с определенной вероятностью перехода состояния (в детерминированной среде агент оказывается в определенном состоянии для определенного действия). Я показал 3 возможных состояния, в которые агент может приземлиться после того, как будет предпринято максимальное действие. Синей стрелкой показаны 3 перехода с вероятностью перехода p. Полученное вознаграждение - это r, которое также зависит от динамики перехода и предпринятых действий. Переход агента в новое состояние s ’.

Функция состояния-действия при стохастической политике π

Подобно функции значения состояния, мы можем создать схему резервного копирования для функции значения действия или функции значения состояния-действия. В этом случае корневой узел представляет собой сплошной круг как конкретное действие из определенного состояния.

На приведенной ниже схеме резервного копирования я показываю, как каждый компонент связан для лучшей интуиции. Это дает лучшее понимание MDP, поскольку мы можем расширить эту диаграмму на все пространство состояний.

  1. Значение состояния vπ (s) в состоянии s
  2. Из состояния s агент может выполнить 3 действия (a1, a2, a3)
  3. Значение действия qπ (s, a) для предпринятого действия, где a = {a1, a2, a3}
  4. Здесь агент предпринял действие a3. Он может приземлиться в состояние s’1, s’2 или s’3 с вероятностью перехода p1, p2 или p3 соответственно (обратите внимание, что аналогично будут разные состояния, если агент выберет действие a2 или a3, и соответствующая вероятность перехода будет применима.
  5. Полученная награда отображается как r1, r2 или r3 в зависимости от состояния, в котором она выпала.

Оптимальное значение состояния и оптимальное значение действия

На диаграмме ниже показано уравнение оптимальности Беллмана для значения состояния для определенного состояния s и уравнение оптимальности Беллмана для значения действия состояния для действия a, взятого из состояния s. Это максимальное действие (действие, которое дает максимальное значение состояния в последующем состоянии) из состояния, которое обеспечивает оптимальность в соответствии с уравнением оптимальности Беллмана.

Схема резервного копирования может использоваться для графического представления алгоритма RL, который использует функцию ценности в уравнении. Ниже приведены еще несколько хорошо известных алгоритмов, которые можно легко понять, если обратиться к диаграмме резервного копирования.

Государственная ценность Монте-Карло

Метод Монте-Карло - очень простая концепция, при которой агент узнает о состояниях и награждает, когда он взаимодействует с окружающей средой. В этом методе агент генерирует опытные образцы, а затем на основе средней доходности рассчитывается значение для состояния. Ниже приведены ключевые характеристики метода Монте-Карло (МК):

  1. Нет модели (агент не знает переходов MDP состояний)
  2. агент узнайте из выборочного опыта
  3. узнать значение состояния vπ (s) в соответствии с политикой π, получая среднюю доходность всех выбранных эпизодов (значение = средняя доходность)
  4. только после полного выпуска значения обновляются (из-за этого алгоритма сходимость медленная, а обновление происходит после завершения эпизода)
  5. Нет начальной загрузки
  6. Может использоваться только в эпизодических задачах.

Ценность действия государства Монте-Карло

В этом методе агент генерирует опытные образцы, а затем на основе средней доходности вычисляется значение для действия-состояния. Итак, здесь отправная точка - это состояние-действие, а заканчивается конечным состоянием.

Временная разница TD (0)

Метод временной разницы (TD) представляет собой смесь метода Монте-Карло (MC) и метода динамического программирования (DP).

Ниже приведены ключевые характеристики метода Монте-Карло (МК):

  1. Нет модели (агент не знает переходов MDP состояний)
  2. агент учиться на выборочном опыте (аналогично MC)
  3. Как и DP, методы TD обновляют оценки частично на основе других полученных оценок, не дожидаясь окончательного результата (они запускаются, как DP).
  4. Он может учиться на неполном эпизоде ​​, поэтому этот метод также можно использовать в непрерывных задачах.
  5. TD обновляет предположение до предположения и пересматривает предположение на основе реального опыта

TD (0) - простейшая форма обучения TD. В этой форме обучения TD после каждого шага функция значения обновляется значением следующего состояния и полученным вознаграждением.

SARSA

Одним из алгоритмов TD для контроля или улучшения является SARSA. Название SARSA возникло из-за того, что агент делает один шаг от одной пары значений состояние-действие к другой паре значений состояние-действие и попутно собирает вознаграждение R (так что это S (t), A (t), R (t + 1), S (t + 1) & A (t + 1) кортеж, который создает термин S, A, R, S, A). SARSA - это метод, установленный политикой. SARSA использует функцию значения действия Q и следует политике π. Схема резервного копирования SARSA выглядит следующим образом.

Заключение

Схема резервного копирования очень полезна для передачи шагов алгоритма RL. Это дает возможность понять алгоритм без сложных математических обозначений.

Спасибо за прочтение . Вы можете подключить меня @ LinkedIn.