Все о схеме резервного копирования
Схема, объясняющая алгоритмы обучения с подкреплением
Как мы знаем, картинка стоит тысячи слов; Схема резервного копирования дает визуальное представление о различных алгоритмах и моделях обучения с подкреплением.
Процесс резервного копирования (Операция обновления) - это графическое представление алгоритма, представляющее состояние, действие, переход между состояниями, вознаграждение и т. Д. Функция значения (состояние или состояние-действие) передается обратно в состояние (или состояние-действие) из его состояния-преемника или состояния-действия.
На схеме резервного копирования значение состояния представлено полым кружком, а значение состояния-действия или значение действия представлено сплошным кружком. Действие представлено стрелкой, начинающейся с состояния. Награда обычно указывается после значения действия. Действие, которое приводит к максимальному значению действия, отображается в виде дуги, начинающейся с состояния. См. Диаграммы ниже для стандартного представления значения состояния, значения действия, действия, максимального значения действия, перехода между состояниями.
Функция State Value при стохастической политике π
Теперь я расскажу, как можно показать значение состояния с помощью диаграмм резервного копирования.
- s - начальное состояние, и это корневой узел
- из состояния s может быть три действия, показанных стрелкой, и агент выполняет действие в соответствии с политикой π
- значение действия или действия в состоянии показано сплошным кружком (это соглашение, согласно которому действие выполняется из состояния, а вознаграждение получается после его выполнения).
- После выполнения действия агент может оказаться в другом состоянии, если это стохастическая среда с определенной вероятностью перехода состояния (в детерминированной среде агент оказывается в определенном состоянии для определенного действия). Я показал 3 возможных состояния, в которые агент может приземлиться после того, как будет предпринято максимальное действие. Синей стрелкой показаны 3 перехода с вероятностью перехода p. Полученное вознаграждение - это r, которое также зависит от динамики перехода и предпринятых действий. Переход агента в новое состояние s ’.
Функция состояния-действия при стохастической политике π
Подобно функции значения состояния, мы можем создать схему резервного копирования для функции значения действия или функции значения состояния-действия. В этом случае корневой узел представляет собой сплошной круг как конкретное действие из определенного состояния.
На приведенной ниже схеме резервного копирования я показываю, как каждый компонент связан для лучшей интуиции. Это дает лучшее понимание MDP, поскольку мы можем расширить эту диаграмму на все пространство состояний.
- Значение состояния vπ (s) в состоянии s
- Из состояния s агент может выполнить 3 действия (a1, a2, a3)
- Значение действия qπ (s, a) для предпринятого действия, где a = {a1, a2, a3}
- Здесь агент предпринял действие a3. Он может приземлиться в состояние s’1, s’2 или s’3 с вероятностью перехода p1, p2 или p3 соответственно (обратите внимание, что аналогично будут разные состояния, если агент выберет действие a2 или a3, и соответствующая вероятность перехода будет применима.
- Полученная награда отображается как r1, r2 или r3 в зависимости от состояния, в котором она выпала.
Оптимальное значение состояния и оптимальное значение действия
На диаграмме ниже показано уравнение оптимальности Беллмана для значения состояния для определенного состояния s и уравнение оптимальности Беллмана для значения действия состояния для действия a, взятого из состояния s. Это максимальное действие (действие, которое дает максимальное значение состояния в последующем состоянии) из состояния, которое обеспечивает оптимальность в соответствии с уравнением оптимальности Беллмана.
Схема резервного копирования может использоваться для графического представления алгоритма RL, который использует функцию ценности в уравнении. Ниже приведены еще несколько хорошо известных алгоритмов, которые можно легко понять, если обратиться к диаграмме резервного копирования.
Государственная ценность Монте-Карло
Метод Монте-Карло - очень простая концепция, при которой агент узнает о состояниях и награждает, когда он взаимодействует с окружающей средой. В этом методе агент генерирует опытные образцы, а затем на основе средней доходности рассчитывается значение для состояния. Ниже приведены ключевые характеристики метода Монте-Карло (МК):
- Нет модели (агент не знает переходов MDP состояний)
- агент узнайте из выборочного опыта
- узнать значение состояния vπ (s) в соответствии с политикой π, получая среднюю доходность всех выбранных эпизодов (значение = средняя доходность)
- только после полного выпуска значения обновляются (из-за этого алгоритма сходимость медленная, а обновление происходит после завершения эпизода)
- Нет начальной загрузки
- Может использоваться только в эпизодических задачах.
Ценность действия государства Монте-Карло
В этом методе агент генерирует опытные образцы, а затем на основе средней доходности вычисляется значение для действия-состояния. Итак, здесь отправная точка - это состояние-действие, а заканчивается конечным состоянием.
Временная разница TD (0)
Метод временной разницы (TD) представляет собой смесь метода Монте-Карло (MC) и метода динамического программирования (DP).
Ниже приведены ключевые характеристики метода Монте-Карло (МК):
- Нет модели (агент не знает переходов MDP состояний)
- агент учиться на выборочном опыте (аналогично MC)
- Как и DP, методы TD обновляют оценки частично на основе других полученных оценок, не дожидаясь окончательного результата (они запускаются, как DP).
- Он может учиться на неполном эпизоде , поэтому этот метод также можно использовать в непрерывных задачах.
- TD обновляет предположение до предположения и пересматривает предположение на основе реального опыта
TD (0) - простейшая форма обучения TD. В этой форме обучения TD после каждого шага функция значения обновляется значением следующего состояния и полученным вознаграждением.
SARSA
Одним из алгоритмов TD для контроля или улучшения является SARSA. Название SARSA возникло из-за того, что агент делает один шаг от одной пары значений состояние-действие к другой паре значений состояние-действие и попутно собирает вознаграждение R (так что это S (t), A (t), R (t + 1), S (t + 1) & A (t + 1) кортеж, который создает термин S, A, R, S, A). SARSA - это метод, установленный политикой. SARSA использует функцию значения действия Q и следует политике π. Схема резервного копирования SARSA выглядит следующим образом.
Заключение
Схема резервного копирования очень полезна для передачи шагов алгоритма RL. Это дает возможность понять алгоритм без сложных математических обозначений.