Подобно машинному обучению, обучение с подкреплением также является дисциплиной в области ИИ, которая исследуется десятилетиями, но совсем недавно она привлекла внимание бизнеса и стала доступной для практиков по всему миру.
Самая захватывающая часть обучения с подкреплением заключается в том, что оно ведет себя как человек, с точки зрения обучения на основе опыта и применения прошлого опыта для динамического решения новой ситуации.
Подражание человеческому поведению математически, а затем и программно позволило использовать обучение с подкреплением в реальных условиях. Высшее вычислительное мастерство под рукой является ключевым предшественником этого быстрого прогресса в последние пять лет. Это открыло целый мир возможностей для осуществления прорывов в таких областях, как самоуправляемые транспортные средства, открытие лекарств, количественная торговля и метаверсия. Самая сложная часть внедрения обучения с подкреплением — это математическое и программное моделирование реальной среды.
Верный названию статьи, теперь давайте углубимся в технические детали.
В этой статье я бы в основном рассказал о Марковском процессе принятия решений и Q Learning (упрощенная версия обучения с подкреплением) в следующей.
Марковский процесс принятия решений
Марковские процессы принятия решений дают нам способ формализовать последовательное принятие решений. Это формирует основу для структурирования проблем, которые решаются с помощью обучения с подкреплением.
Марковский процесс принятия решений (MDP) — это математическая основа, используемая для моделирования задач принятия решений, когда результаты частично случайны, а частично контролируемы.
Помимо обучения с подкреплением, его применение можно найти в таких областях, как динамическое программирование и робототехника.
Компоненты MDP:
Агент || Окружающая среда || Состояние (Si) || Действие (Ай) || Награда (Ри)
Это дало бы общее представление о динамике компонентов обучения с подкреплением:
Математическая запись
- На каждом временном шаге t=0,1,2,⋯ агент получает некоторое представление состояния среды S'∈ S. На основе этого состояния агент выбирает действие A' ∈ A. Это дает нам состояние-действие пара (S',A').
- Затем время увеличивается до следующего временного шага, t+1, и среда переходит в новое состояние, S т+1. Агент получает числовое вознаграждение Rt+1 за действие, в взятое из штата St.
Вероятность перехода
Все возможные значения, которые могут быть присвоены Rt и St, имеют некоторые связанные вероятности или определенную функцию распределения вероятностей.
Что движет агентом в MDP?
Цель агента в MDP — максимально увеличить совокупное вознаграждение ИЛИ ожидаемый возврат вознаграждения.
- Чтобы агрегировать и формализовать эти кумулятивные вознаграждения, вводится понятие ожидаемой доходностиот вознаграждений на заданном временном шаге.
- Совокупный доход в момент времени t определяется как (T — последний временной шаг) с применением коэффициента дисконтирования.
Эпизодические и постоянные задачи
- Взаимодействие агент-среда естественным образом разбивается на последовательности, называемые эпизодами, когда есть последний временной шаг. Например: игра в пинг-понг. Каждый новый раунд игры можно рассматривать как эпизод.
- Последний временной шаг эпизода происходит, когда игрок набирает очко.
Политики и функции ценности
Какова вероятность того, что агент выберет определенное действие в определенном состоянии?
- Выбор действия увеличит ИЛИ уменьшит возврат агента в состояние. Функции значений помогают нам узнать это заранее
Политика (π) – это функция, которая отображает заданное состояние в вероятности выбора каждого возможного действия из этого состояния. Другими словами, Политика – это распределение вероятностей по всем возможным действиям, которые можно выбрать из состояний.
Функция значения
Функции стоимости определяются относительно. политика. Окончательные вопросы с точки зрения ОЖИДАЕМОЙ ДОХОДНОСТИ:
- Насколько хорошо находиться в состоянии (состояниях) при следовании политике —Функция значения состояния (
Ответ:Ожидаемый доход, начиная с состояния s и в соответствии с политикой(π) после этого)
- Насколько хорошо выполнять действие в заданном состоянии (пара состояние-действие) — Функция ценности действия (
Ответ: ожидаемый доход от запуска из состояния sв момент времениt,выполнения действияa и соблюдения политики (π) после этого.
- Обычно функция «действие — значение» qπ(s, a) известна как функция Q, а ожидаемый доход от функции называется q-значением.
- Q представляет качество данного действия в данном состоянии.
Следующий вопрос, на который следует ответить, — что изучают алгоритмы обучения с подкреплением.
Ответ: оптимальные политики. Цель алгоритма RL — найти политику, которая принесет агенту больший ожидаемый доход, чем все другие политики.
Политика π считается лучшей, чем политика π`, если ожидаемая доходность π больше, чем ожидаемая доходность π’ для всех состояний.
- q*(s, a) дает наибольший ожидаемый доход, достижимый при любой политике, π для каждой возможной пары состояние-действие
- Одно фундаментальное свойство q∗ заключается в том, что оно должно удовлетворять уравнению оптимальности Беллмана
LHS также известна как Q-функция ИЛИ функция значения действия оптимального состояния
Для любой оптимальной функции Q (оптимальное состояние — функция значения действия)
- Ожидаемый доход — это ожидаемое вознаграждение, которое мы получаем от действия a в состоянии s, которое равно Rt+1, плюс максимальный ожидаемый дисконтированный доход, который может быть получен от любой возможной следующей пары состояние-действие. (с', а')
- Поскольку агент следует оптимальной политике, следующее состояние s’ будет состоянием, из которого можно предпринять наилучшее следующее действие a’ в момент времени t+1.
- Мы можем использовать уравнение Беллмана, чтобы найти q∗(значение Q)
- Имея q∗, мы можем определить оптимальную политику, потому что при q∗ для любого состояния s алгоритм обучения с подкреплением может найти действие a, которое максимизирует q∗(s,a )
Понимание Марковского процесса принятия решений открывает окно в самые захватывающие области ИИ, такие как обучение с подкреплением.
{ "next_step": "Writing another blog on Q Learning", "hoping_for": "Readers to come back for next part", "wishing_you": "Happy Reading !!", }