ОБЪЯСНЕНИЕ ОБУЧЕНИЯ С ГЛУБОКИМ ПОДКРЕПЛЕНИЕМ — 12

Обзор основных концепций

Обновлены математические обозначения

Этот пост является предисловием к новым частям серии Объяснение глубокого обучения с подкреплением, где мы представим реализацию классических методов обучения с подкреплением, таких как Монте-Карло, SARSA или Q-обучение, среди прочих. . В этом посте мы рассмотрим и обновим математические обозначения, введенные в предыдущих постах.

Испанская версия этого издания



Обзор математических обозначений

В сообщении 2 мы увидели, что можем использовать Марковский процесс принятия решений (MDP) в качестве формального определения проблемы, которую мы хотели бы решить с помощью обучения с подкреплением. MDP определяется пятью параметрами ‹S,A,R,p,γ›,где каждый из них указывает:

  • S — набор состояний
  • A – набор действий.
  • R — функция вознаграждения
  • p — функция перехода
  • γ — коэффициент дисконтирования.

Помните, что мы склонны использовать обозначения, используемые в учебнике Обучение с подкреплением: введение Ричарда С. Саттона и Эндрю Дж. Барто. Эта книга — классический текст с прекрасным введением в основы обучения с подкреплением.

Основные определения и математические символы, которые мы ввели в предыдущих постах:

Ставка дисконта для продолжающейся задачи

Прежде чем продолжить, давайте кратко добавим, как ставка дисконтирования ведет себя в продолжающейся задаче, не описанной в предыдущих сообщениях.

Пример продолжения задачи

В части 1 этой серии мы использовали эпизодическую задачу, среду Frozen-Lake, простую среду grid-world от OpenAI Gym, набор инструментов для разработки и сравнения алгоритмов RL. В этом разделе мы представим постоянную задачу с использованием другой Среды, задача балансировки тележки-шеста:

Как показано на предыдущем рисунке, тележка расположена на гладкой дорожке вдоль горизонтальной оси, а к верхней части тележки прикреплена жердь. Цель состоит в том, чтобы удержать шест от падения, перемещая тележку влево или вправо и не упадая с рельсов.

Система управляется приложением силы +1 (слева) или -1 (справа) к тележке. Маятник начинается вертикально, и цель состоит в том, чтобы предотвратить его падение. Награда +1 предоставляется за каждый временной шаг, в течение которого шест остается в вертикальном положении, включая последний шаг эпизода. Эпизод заканчивается, когда шест отклоняется от вертикали более чем на 15 градусов или тележка смещается более чем на 2,4 единицы от центра.

Пространство наблюдения за этой Средой в каждый момент времени представляет собой массив из 4 чисел. На каждом временном шаге вы можете наблюдать его положение, скорость, угол и угловую скорость. Это наблюдаемые состояния этого мира. Вы можете посмотреть, что представляет каждое из этих чисел в этом документе. Обратите внимание на минимальное (-Inf) и максимальное (Inf) значения как для скорости тележки, так и для скорости шеста на конце. Поскольку запись в массиве, соответствующая каждому из этих индексов, может быть любым вещественным числом, это означает, что пространство состояний бесконечно!

В любом состоянии у корзины есть только два возможных действия: переместить влево или переместить вправо. Другими словами, пространство состояний Cart-Pole имеет четыре измерения непрерывных значений, а пространство действий имеет одно измерение двух дискретных значений.

Учетная ставка

Какие ставки дисконтирования побудили бы Агента как можно дольше удерживать равновесие полюса в нашем примере с продолжающейся задачей?

При любой ставке дисконтирования γ›0Агент получает положительное вознаграждение за каждый временной шаг, на котором шест еще не упал. Таким образом, агент будет стараться как можно дольше удерживать шест в равновесии.

Однако представьте, что сигнал вознаграждения изменен, чтобы дать агенту вознаграждение только в конце эпизода. Другими словами, вознаграждение равно 0 для каждого временного шага, за исключением последнего временного шага, когда эпизод заканчивается, а затем Агент получает вознаграждение +1.

В этом случае, если ставка дисконтирования равна γ=1, агент всегда будет получать вознаграждение +1 (независимо от того, какие действия он выберет во время эпизода), и поэтому сигнал вознаграждения не будет давать любая полезная обратная связь с агентом.

Если ставка дисконтирования равна γ‹1, Агент попытается завершить эпизод как можно скорее (либо быстро бросив шест, либо сдвинувшись с края дорожки). Таким образом, в этом случае мы должны изменить сигнал вознаграждения!

Решение этой проблемы, то есть ряд действий, которым должен научиться Агент для достижения цели, определяется Политикой. В следующем разделе мы немного продолжим формальное определение решения этой задачи.

Политика

Политика – это стратегия (например, некоторый набор правил), которую агент использует для определения следующего действия на основе текущего состояния. Обычно обозначаемая 𝜋(𝑎|𝑠),греческая буква пи, политика — это функция, определяющая следующее действие a для получения заданного состояния s.

Простейший тип политики — это сопоставление набора состояний среды S с набором возможных действий A. . Мы называем такую ​​политику детерминированной политикой. Но в посте 2 мы также представили, что политика 𝜋(𝑎|𝑠) может быть определена как вероятность, а не как конкретное действие. Другими словами, это стохастическая политика, имеющая распределение вероятностей по действиям, которые агент может предпринять в заданном состоянии.

Стохастическая политика позволит Агенту выбирать действия случайным образом. Более формально мы определяем стохастическую политику как отображение, которое принимает состояние среды Sи действие A и возвращает вероятность того, что агент предпримет действие A, находясь в состоянии S:

В процессе обучения политика 𝜋 может меняться по мере накопления Агентом опыта. Например, Агент может начать со случайной политики, где вероятность всех действий одинакова; Между тем, агент, как мы надеемся, научится оптимизировать свою политику для достижения оптимальной политики.

Теперь, когда мы знаем, как указать политику, какие шаги мы можем предпринять, чтобы убедиться, что политика агента является лучшей? Мы будем использовать функцию значения состояния и функцию значения действия, уже представленные в посте 2.

Функции ценности

Функция значения состояния, также называемая функцией значения или даже V-функцией, измеряет качество каждого состояния. сообщает нам общий доход, который мы можем ожидать в будущем, если мы начнем с этого состояния.

Для каждого состояния s функция значения состояния сообщает нам ожидаемую доходность со скидкой G, если агент начал в этом состоянии s, а затем используйте политику, чтобы выбрать свои действия для всех временных шагов. Важно отметить, что функция значения состояния всегда будет соответствовать определенной политике, поэтому, если мы изменим политику, мы изменим функцию значения состояния. По этой причине мы обычно обозначаем функцию строчной буквой v с соответствующей политикой 𝜋 в нижнем индексе и формально определяем следующим образом:

где 𝔼[·] обозначает ожидаемое значение случайной величины при условии, что агент следует политике 𝜋, а t — любой временной шаг. Как мы представили в сообщении 8, в этом определении используется ожидание 𝔼[.], потому что функция перехода среды может действовать стохастическим образом.

Также в сообщении 2 мы расширили определение функции состояние-значение на пары состояние-действие, определив значение для каждой пары состояние-действие, которое называется функцией действие-значение, также известной как Q-функция или просто Q. Он определяет ценность действий a в состоянии s в соответствии с политикой π,как ожидаемый Возврат G, начиная с s, выполняя действие a, а затем следуя политике п:

В этой серии мы будем использовать прописные и строчные обозначения функций значений попеременно: V(s) или v(s). и Q(s,a) или q(s,a)

Уравнение ожидания Беллмана

Для общего MDP мы должны работать с точки зрения ожидания, поскольку нечасто бывает так, что немедленное вознаграждение и следующее состояние можно предсказать с уверенностью. Действительно, в предыдущем посте мы видели, что вознаграждениеr и следующее состояние s' выбираются в соответствии с одношаговой динамикой MDP. . В этом случае, когда r и s′ взяты из (условного) распределения вероятностей p(s′,rs,a), уравнение ожидания Беллманавыражает значение любого состояния s через ожидаемое немедленное вознаграждение и ожидаемое значение следующего состояния (удовлетворяющее рекурсивным отношениям).

Для общего случая, когда политика Агента π является стохастической, Агент выбирает действие a с вероятностью π( as), когда он находится в состоянии s, а уравнение ожидания Беллмана можно выразить следующим образом:

В этом случае мы умножаем сумму вознаграждения и дисконтированной стоимости следующего состояния (r+γvπ​(s′)) на ее соответствующая вероятность π(as)p(s′,rs,a) и просуммируйте все возможности, чтобы получить ожидаемое значение.

У нас также есть уравнение Беллмана для функции действия-ценности:

Оптимальная политика

Цель Агента — максимизировать общую совокупную награду в долгосрочной перспективе. Политика, которая максимизирует общее совокупное вознаграждение, называется оптимальной политикой. В Посте 8 мы представили оптимальные функции ценности.

Политика π′ считается лучшей или равной политике π тогда и только тогда, когда ′​(s)≥​(s) для всех s∈S. Оптимальная политикаπ∗​ удовлетворяет π∗​≥π для всех политик π. Оптимальная политика гарантированно существует, но может быть не единственной.

Все оптимальные политики имеют одну и ту же функцию значения состоянияv​, называемую функцией оптимального значения состояния. Более формальное определение оптимальных функций значения состояния может быть следующим:

и для функции действия-ценности:

Все оптимальные политики имеют одну и ту же функцию ценности действия q​, называемую оптимальной функцией ценности действия.

Это оптимальное значение действия очень полезно для получения оптимальной политики. Агент оценивает ее, взаимодействуя со Средой. Как только агент определит оптимальную функцию действия-ценности q∗​, он может быстро получить оптимальную политику π∗​, установив:

Как мы видели в Посте 8, уравнение Беллмана используется для нахождения оптимальных значений функций ценности в алгоритмах их расчета. Более формальным выражением может быть:

Что следующее?

Мы подошли к концу этого поста!. «В следующем посте мы собираемся представить метод Монте-Карло, метод обучения для оценки функций ценности и обнаружения оптимальных политик.

До встречи в следующем посте!

Серия объяснений глубокого обучения с подкреплением

от UPC Barcelona Tech и Barcelona Supercomputing Center

Непринужденная вступительная серия, которая постепенно и с практическим подходом знакомит читателя с этой захватывающей технологией, которая является реальным двигателем последних прорывных достижений в области искусственного интеллекта.



Об этой серии

Я начал писать эту серию в мае, во времяпериода изоляции в Барселоне. Честно говоря, написание этих постов в свободное время помогло мне #StayAtHome из-за изоляции. Спасибо, что прочитали эту публикацию в те дни; это оправдывает мои усилия.

Отказ от ответственности. Эти сообщения были написаны во время карантина в Барселоне для личного отвлечения внимания и распространения научных знаний на случай, если они могут быть кому-то полезны, но без цели использования в качестве академического справочного документа. в районе ДХО. Если читателю нужен более подробный документ, последний пост в серии предлагает обширный список академических ресурсов и книг, к которым читатель может обратиться. Автору известно, что эта серия постов может содержать некоторые ошибки, и страдает от пересмотра английского текста, чтобы улучшить его, если целью был академический документ. Но хотя автор хотел бы улучшить содержание в количестве и качестве, его профессиональные обязанности не оставляют ему для этого свободного времени. Однако автор соглашается исправить все те ошибки, о которых читатели могут сообщить, как только он сможет.