Путешествие в обучение с подкреплением (Часть 1)

Введение

Обучение с подкреплением — это важный тип машинного обучения, используемый в широком спектре приложений и областей, включая робототехнику, генетику, финансовые приложения и рекомендательные системы, и это лишь некоторые из них. В этой серии статей я стремлюсь отправить читателя в путешествие, чтобы узнать достаточно об этой теме. Цель состоит в том, чтобы накопить знания в обучении с подкреплением, начиная с основных принципов и постепенно переходя к более продвинутым аспектам обучения с подкреплением. В статьях будет теория баланса и практические демонстрации, которые помогут отработать изученную теорию и закрепить понимание. Итак, начнем путешествие…

Определение

Обучение с подкреплением можно определить следующим образом:

«Обучение с подкреплением — это область машинного обучения, связанная с тем, как программные агенты должны предпринимать действия в окружающей среде, чтобы максимизировать некоторое понятие накопительное вознаграждение».

- Википедия

Из этого определения мы видим, что у нас есть программный агент, который взаимодействует со средой, выполняя действия, которые приводят к немедленному вознаграждению. цель обучения с подкреплением состоит в том, чтобы агент научился максимизировать совокупное вознаграждение, полученное в результате выполнения последовательности таких действий. Следует отметить, что действия с наивысшим немедленным вознаграждением приведут к оптимальному общему вознаграждению. Таким образом, цель обучения с подкреплением состоит в том, чтобы научиться максимизировать общее вознаграждение.

Чем обучение с подкреплением отличается от других видов машинного обучения?

Алгоритмы контролируемого машинного обучения получают помеченные образцы. Метка может быть классом для задач классификации или числовым значением для задач регрессии. Цель состоит в том, чтобы научиться давать ярлыки для примеров, которых они раньше не видели. Входные выборки независимы друг от друга и во время обучения они отбираются с равной вероятностью. Для неконтролируемого обучения входными данными являются немаркированные образцы, а целью является выявление кластеров или ассоциаций в выборочной совокупности.

Обучение с подкреплением отличается от обоих типов машинного обучения следующими способами:

· Ввод: вводом для алгоритма обучения с подкреплением является представление состояния окружающей среды.

· Метод обучения: обучение достигается получением числового сигнала, вознаграждения за каждое предпринятое действие. Агенты обучения с подкреплением учатся на взаимодействии с окружающей средой.

· Цель обучения: оптимальная политика выполнения последовательных действий, которые максимизируют совокупное вознаграждение в долгосрочной перспективе.

· Активный алгоритм: при заданном состоянии агент подкрепления предпринимает действия, которые изменят состояние среды; то самое состояние, с которым агент пытается научиться взаимодействовать.

· Зависимость от состояния: состояния не являются независимыми. Вероятность окончания в определенном состоянии зависит от предыдущих состояний.

Алгоритмы обучения с подкреплением можно разделить на основанные на моделях и без моделей. В алгоритмах, основанных на моделях, агент использует легкодоступную прогностическую модель для прогнозирования результатов действий в конкретной среде. Модели могут использоваться для конкретных сред и часто не распространяются на другие среды. Другой класс обучения с подкреплением не зависит от модели, когда агент мало знает об окружающей среде, с которой он взаимодействует, и учится методом проб и ошибок. В этой серии статей мы сосредоточимся на алгоритмах обучения с подкреплением без моделей.

Типы задач обучения с подкреплением

Задачи RL можно разделить на следующие категории:

Эпизодические задачи: взаимодействие между агентом и средой, траектория, может быть разделена на подпоследовательности, называемые эпизодами, где каждый эпизод имеет четко определенное конечное состояние.

Непрерывные задачи:взаимодействие между агентом и средой может быть разделено на подпоследовательности и имеет тенденцию продолжаться без ограничений.

Конечный марковский процесс принятия решений

Конечный марковский процесс принятия решений (MDP) обеспечивает математическую основу для формализации представления машинного обучения с подкреплением. MDP подвергает риску следующие компоненты:

• Среда: воплощение проблемного агента, взаимодействующего во времени.

• Агент: действия по обучению объекта, чтобы максимизировать общее вознаграждение.

• Состояние: представление среды на определенном временном шаге. Существует конечное множество S всех состояний.

• Награда: числовой сигнал, который агент получает за выполнение действий.

• Действие: принятие решения агентом. Существует конечное множество A всех действий.

В этой структуре агент взаимодействует с окружающей средой в течение временных приращений или временных шагов t=0,1,2,… . На каждом временном шаге t агенту предоставляется информация о состоянии окружающей среды. Затем агент должен принять решение о следующем действии. Выполнение действия в среде приведет к вознаграждению, а состояние среды изменится на следующее состояние на следующем временном шаге, и цикл повторится. Это взаимодействие приводит к траектории S0, A0, R1, S1, A1, R2, S2, … . В рамках MDP вероятность состояния может быть определена только с учетом текущего состояния:

Точно так же пара состояния и вознаграждения имеет четко определенную вероятность, которая зависит только от состояния и действия на предыдущем временном шаге:

Это важно, так как означает, что достаточно иметь только текущее состояние, чтобы определять следующие состояния, без необходимости отслеживать полную историю перехода состояний до .

По мере взаимодействия агента с окружающей средой вознаграждения, возвращаемые на каждом временном шаге, накапливаются: Gt = Rt+1 + Rt+2 + Rt+3 + …

Но ожидаемые выгоды от будущих временных шагов могут быть неопределенными. Например, среда может завершиться раньше агента на определенный временной шаг. Чем дальше временной шаг в будущее, тем выше степень неопределенности, связанная с ним. Это приводит к дисконтированию, когда будущие вознаграждения дисконтируются в геометрической прогрессии. Для этого доход на шаге x умножается на где , коэффициент дисконтирования, находится в диапазоне от 0 до 1. Следовательно, ожидаемый дисконтированный доход может быть выражен следующим образом:

Из последнего уравнения ожидаемый дисконтированный доход на шаге t выражается как сумма Rt+1 и дисконтированного ожидаемого дохода t+1.

Функции обучения с подкреплением

Почти все алгоритмы обучения с подкреплением включают оценку функций ценности и политики, используемых для максимизации ожидаемой совокупной отдачи.

Функция политики

Функция политики определяет, как агент будет вести себя в любом состоянии на любом временном шаге. Другими словами, он определяет вероятность совершения действия для любого заданного состояния:

Функция значения

Функция ценности оценивает, насколько «хорошо» данное состояние для агента в долгосрочной перспективе в соответствии с политикой. «Хорошость» состояния измеряется с точки зрения ожидаемой дисконтированной доходности:

Функция Q

Функция Q измеряет, насколько хорошо предпринимать определенные действия в состоянии s и следовать политике после этого. И снова «качество» пары «состояние-действие» измеряется ожидаемой дисконтированной совокупной доходностью:

В следующей статье этой серии я собираюсь обсудить уравнения оптимальности Беллмана и Беллмана, которые являются фундаментальными для любого алгоритма RL, итерации обобщенной политики, а затем представлю наш первый алгоритм RL.

Статьи из этой серии:

Дайджест обучения с подкреплением, часть 2: уравнения Беллмана, обобщеннаяитерация политики и метод Монте-Карло

Дайджест обучения с подкреплением, часть 3: SARSA и Q-обучение

Дайджест обучения с подкреплением, часть 4: глубокая Q-сеть (DQN) и двойная глубокая Q-сеть (DDQN)

Использованная литература:

Обучение с подкреплением: введение, второе издание Ричарда С. Саттона и Эндрю Г. Бартоу http://incompleteideas.net/book/RLbook2020.pdf