Учитывая, что вам нужно проехать из пункта А в пункт Б. Выберете ли вы оптимальный, но самый опасный путь? Или вы бы предпочли выбрать самый безопасный, но самый трудоемкий путь?

Исследуйте против эксплуатации

В контексте обучения с подкреплением эксплуатация — это когда агент выбирает наилучшее действие, а исследование — это когда агент действует случайным образом, чтобы выяснить, есть ли другой лучший способ (способы) для достижения цели.

Что такое политика?

Политика в обучении с подкреплением относится к способу принятия решения о том, какое действие предпринять. Наиболее распространенная политика в обучении с подкреплением - это эпсилон-жадность, где эпсилон относится к вероятности исследования. Следовательно, эпсилон-жадная политика позволит агенту выполнять исследование в течение эпсилонпроцента времени и выполнять эксплуатацию в течение 1-эпсилонпроцента времени.

Почему SARSA и Q-learning думают по-разному?

Сначала поговорим об основном сходстве. И SARSA, и Q-обучение выполняют некоторые действия, получают немедленное вознаграждение и наблюдают новое состояние в данной среде, чтобы изучить функцию «действие-значение» или Q-значение в Q-таблице. Q-таблица имеет размерность количества действий по количеству состояний, где Q-значение показывает, насколько хорошо действие соответствует состоянию.

Единственное различие, которое заставляет SARSA и Q-обучение принимать разные решения, заключается в том, что SARSA использует подход, основанный на политике, а Q-обучение использует подход вне политики. Учитывая, что политика является эпсилон-жадной, вне политики — это когда агент не изучает функцию «действие-значение» из политики, а «в соответствии с политикой» — это когда агент изучает функцию «действие-значение» из политики.

Уравнение обновления Q-значения для текущего состояния и текущего действия Q-обучения основано на наилучшем действии следующего состояния, обозначенного функцией max, которая вообще не учитывает эпсилон-жадную политику.

В то время как правило обновления для SARSA основано не на лучшем действии следующего состояния, а на действии, определяемом эпсилон-жадной политикой. Вот почему SARSA называется политикой, из-за которой оба подхода действуют по-разному.

Проблема ходьбы по скале

В задаче об обрыве агенту нужно пройти от левой белой точки к правой белой точке, где красные точки — это обрыв. Агент получает награду 10, когда достигает цели и получает наказание -100, если агент падает со скалы. Чем дольше агент путешествует по сетке, тем большее наказание получит агент, которое равно -1 для каждой сетки.

Агент Q-обучения представлен зеленой линией, а агент SARSA — синей линией. Полный код Python можно найти в конце статьи.

Нет сомнений в том, почему Q-обучение выбирает оптимальный путь, поскольку подход учит только оптимальному действию.

Но причина, по которой SARSA выбрала самый безопасный путь, заключается в том, что политика, управляющая изучением функции действия-ценности SARSA, представляет собой эпсилон-жадность, где эпсилон-процент времени, когда агент совершал случайные обходы. Это означает, что обучение основано на эпсилон-политике, согласно которой большую часть времени ходить беспорядочно, совсем небезопасно идти близко к скале, чтобы избежать большого наказания агента, падающего со скалы, принимая небольшое наказание в виде долгого времени. вместо этого путешествовать.

Это означает, что чем больше уменьшается значение эпсилон, тем ближе путь, выбранный SARSA, к обрыву.

Если мы назначаем эпсилон равным 0,8, это означает, что 80 процентов времени агент будет выполнять случайные действия.

Вот почему SARSA, которая учится на этой политике, старается держаться подальше от обрыва, чтобы максимально предотвратить огромное отрицательное вознаграждение, поскольку ее политика будет принимать случайные движения в 80 процентах случаев. Несмотря на то, что чем дольше агент путешествует по сетке, тем большее отрицательное вознаграждение (-1) получит агент, все же слишком рискованно, чтобы агент, «движимый эпсилон-жадной политикой», оставался рядом с обрывом, поскольку у него много шансов. отвалиться.

Затем, если мы уменьшим степень исследования до 0,2, это будет означать, что только 20 процентов времени агент будет выполнять случайные действия.

В результате путь, выбранный SARSA, приближается к обрыву, ближе к оптимальному пути, поскольку теперь политика не требует такого большого количества случайных движений, как раньше.

Однако, если мы установим эпсилон в НУЛЬ, как вы можете догадаться…

SARSA пошла по тому же пути, что и Q-обучение, поскольку политика, из которой SARSA учится сейчас, является оптимальной политикой, а не эпсилон-жадностью.