Упрощенное руководство по обучению с подкреплением

Подобно машинному обучению, обучение с подкреплением также является дисциплиной в области ИИ, которая исследуется десятилетиями, но совсем недавно она привлекла внимание бизнеса и стала доступной для практиков по всему миру.

Самая захватывающая часть обучения с подкреплением заключается в том, что оно ведет себя как человек, с точки зрения обучения на основе опыта и применения прошлого опыта для динамического решения новой ситуации.

Подражание человеческому поведению математически, а затем и программно позволило использовать обучение с подкреплением в реальных условиях. Высшее вычислительное мастерство под рукой является ключевым предшественником этого быстрого прогресса в последние пять лет. Это открыло целый мир возможностей для осуществления прорывов в таких областях, как самоуправляемые транспортные средства, открытие лекарств, количественная торговля и метаверсия. Самая сложная часть внедрения обучения с подкреплением — это математическое и программное моделирование реальной среды.

Верный названию статьи, теперь давайте углубимся в технические детали.

В этой статье я бы в основном рассказал о Марковском процессе принятия решений и Q Learning (упрощенная версия обучения с подкреплением) в следующей.

Марковский процесс принятия решений

Марковские процессы принятия решений дают нам способ формализовать последовательное принятие решений. Это формирует основу для структурирования проблем, которые решаются с помощью обучения с подкреплением.

Марковский процесс принятия решений (MDP) — это математическая основа, используемая для моделирования задач принятия решений, когда результаты частично случайны, а частично контролируемы.

Помимо обучения с подкреплением, его применение можно найти в таких областях, как динамическое программирование и робототехника.

Компоненты MDP:

Агент || Окружающая среда || Состояние (Si) || Действие (Ай) || Награда (Ри)

Это дало бы общее представление о динамике компонентов обучения с подкреплением:

Математическая запись

На каждом временном шаге t=0,1,2,⋯ агент получает некоторое представление состояния среды S'∈ S. На основе этого состояния агент выбирает действие A' ∈ A. Это дает нам состояние-действие пара (S',A').
Затем время увеличивается до следующего временного шага, t+1, и среда переходит в новое состояние, S т+1. Агент получает числовое вознаграждение Rt+1 за действие, в взятое из штата St.

Вероятность перехода

Все возможные значения, которые могут быть присвоены Rt и St, имеют некоторые связанные вероятности или определенную функцию распределения вероятностей.

Что движет агентом в MDP?

Цель агента в MDP — максимально увеличить совокупное вознаграждение ИЛИ ожидаемый возврат вознаграждения.

Чтобы агрегировать и формализовать эти кумулятивные вознаграждения, вводится понятие ожидаемой доходностиот вознаграждений на заданном временном шаге.
Совокупный доход в момент времени t определяется как (T — последний временной шаг) с применением коэффициента дисконтирования.

Эпизодические и постоянные задачи

Взаимодействие агент-среда естественным образом разбивается на последовательности, называемые эпизодами, когда есть последний временной шаг. Например: игра в пинг-понг. Каждый новый раунд игры можно рассматривать как эпизод.
Последний временной шаг эпизода происходит, когда игрок набирает очко.

Политики и функции ценности

Какова вероятность того, что агент выберет определенное действие в определенном состоянии?

Выбор действия увеличит ИЛИ уменьшит возврат агента в состояние. Функции значений помогают нам узнать это заранее

Политика (π) – это функция, которая отображает заданное состояние в вероятности выбора каждого возможного действия из этого состояния. Другими словами, Политика – это распределение вероятностей по всем возможным действиям, которые можно выбрать из состояний.

Функция значения

Функции стоимости определяются относительно. политика. Окончательные вопросы с точки зрения ОЖИДАЕМОЙ ДОХОДНОСТИ:

- Насколько хорошо находиться в состоянии (состояниях) при следовании политике —Функция значения состояния (

Ответ:Ожидаемый доход, начиная с состояния s и в соответствии с политикой(π) после этого)

- Насколько хорошо выполнять действие в заданном состоянии (пара состояние-действие) — Функция ценности действия (

Ответ: ожидаемый доход от запуска из состояния sв момент времениt,выполнения действияa и соблюдения политики (π) после этого.

Обычно функция «действие — значение» qπ(s, a) известна как функция Q, а ожидаемый доход от функции называется q-значением.
Q представляет качество данного действия в данном состоянии.

Следующий вопрос, на который следует ответить, — что изучают алгоритмы обучения с подкреплением.

Ответ: оптимальные политики. Цель алгоритма RL — найти политику, которая принесет агенту больший ожидаемый доход, чем все другие политики.

Политика π считается лучшей, чем политика π`, если ожидаемая доходность π больше, чем ожидаемая доходность π’ для всех состояний.

q*(s, a) дает наибольший ожидаемый доход, достижимый при любой политике, π для каждой возможной пары состояние-действие
Одно фундаментальное свойство q∗ заключается в том, что оно должно удовлетворять уравнению оптимальности Беллмана

LHS также известна как Q-функция ИЛИ функция значения действия оптимального состояния

Для любой оптимальной функции Q (оптимальное состояние — функция значения действия)

Ожидаемый доход — это ожидаемое вознаграждение, которое мы получаем от действия a в состоянии s, которое равно Rt+1, плюс максимальный ожидаемый дисконтированный доход, который может быть получен от любой возможной следующей пары состояние-действие. (с', а')
Поскольку агент следует оптимальной политике, следующее состояние s’ будет состоянием, из которого можно предпринять наилучшее следующее действие a’ в момент времени t+1.
Мы можем использовать уравнение Беллмана, чтобы найти q∗(значение Q)
Имея q∗, мы можем определить оптимальную политику, потому что при q∗ для любого состояния s алгоритм обучения с подкреплением может найти действие a, которое максимизирует q∗(s,a )

Понимание Марковского процесса принятия решений открывает окно в самые захватывающие области ИИ, такие как обучение с подкреплением.

{
 "next_step": "Writing another blog on Q Learning",
 "hoping_for": "Readers to come back for next part",
"wishing_you": "Happy Reading !!",
}

Упрощенное руководство по обучению с подкреплением — 01

Марковский процесс принятия решений

Вопросы по теме