Введение в обучение с подкреплением

Фундаментальный уровень настройки обучения с подкреплением состоит из Агента, взаимодействующего со Средой в цикле обратной связи. Агент выбирает действие для каждого состояния в момент времени s_t среды на основе ответа, который он получил от среды в предыдущем состоянии в момент времени s_{t-1}. Исходя из этой базовой настройки, мы уже можем определить два основных компонента в настройке обучения с подкреплением: Агент и Среда.

Когда агент взаимодействует со средой, он изучает политику. Политика - это «усвоенная стратегия», которая управляет поведением агентов при выборе действия в определенное время t Окружающей среды. Политику можно рассматривать как отображение состояний Окружающей среды и действий, предпринимаемых в этих состояниях.

Цель Агента подкрепления - максимизировать свои долгосрочные вознаграждения, поскольку он взаимодействует с Окружением в конфигурации обратной связи. Ответ, который Агент получает от каждого цикла состояние-действие (где Агент выбирает действие из набора действий в каждом состоянии Окружающей среды), называется функцией вознаграждения. Функция вознаграждения (или просто вознаграждения) является сигналом о желательности этого состояния на основе действия, совершенного Агентом.

«Благоприятное» вознаграждение может указывать на хорошее немедленное событие (то есть пару состояние-действие) для Агента. С другой стороны, «неблагоприятное» вознаграждение может указывать на плохое событие для Агента. Функция вознаграждения уникальна для проблемы, с которой сталкивается агент подкрепления, и влияет на выбор оптимальной политики, которую проводит агент. Функция вознаграждения во многом определяет задачу обучения с подкреплением.

Другой важный компонент - это идея функции значения (или просто значений). Когда Агент выполняет действие в определенном состоянии Окружающей среды, функция вознаграждения сообщает Агенту о немедленной и внутренней желательности состояния. Однако может оказаться, что состояние с немедленной высокой наградой может привести к другим состояниям, которые крайне нежелательны. Это нехорошо, поскольку цель агента RL - максимизировать долгосрочное вознаграждение. Функция ценности состояния - это ожидаемая долгосрочная желательность текущего состояния с учетом вероятных будущих состояний и их функций вознаграждения.

В конечном итоге, хотя цель агента RL - максимизировать ценности, вознаграждения - это основные сигналы, получаемые агентом при его взаимодействии с окружающей средой. Идея оценки ценностей заключается в повышении качества вознаграждений на каждом этапе взаимодействия агента и среды. Следовательно, когда агент выполняет действие в состоянии, он делает это на основе оценок значений, чтобы он мог переходить в новые состояния с высокими значениями, что, следовательно, приводит к долгосрочным вознаграждениям.

Вознаграждения дешево получить, поскольку они, по сути, являются обратной связью, полученной непосредственно от Окружающей среды. С другой стороны, значения должны постоянно оцениваться, поскольку Агент итеративно взаимодействует со Средой и собирает больше информации. Задача поиска эффективного метода оценки ценностей является центральной при разработке современных алгоритмов обучения с подкреплением.

Однако важно отметить, что, хотя оценка функций ценности повлияла на многие идеи в современной литературе по RL, проблемы обучения с подкреплением все еще можно решать без оценки значений. Но, конечно, эффективность, пригодность и масштабируемость таких методов - это отдельный разговор.

Наконец, нам нужна модель Окружающей среды, чтобы изучить оптимальную политику для агента обучения с подкреплением. Модель Окружающей среды должна каким-то образом отражать стохастическую природу Окружающей среды и возвращать следующее состояние и ответ Агенту при выполнении действия. Наличие модели Окружающей среды полезно при планировании, когда агент рассматривает возможные будущие результаты, прежде чем предпринимать какие-либо действия. В любом случае системы обучения с подкреплением также могут быть элементарными методами обучения методом проб и ошибок, как это видно из теории обучающих автоматов. Агент, который учится методом проб и ошибок, также может изучить модель Окружающей среды и позже использовать ее для расчетного планирования.

Библиография

  • Нарендра, К.С., и Татачар, М.А. (2012). Обучающие автоматы: Введение. Курьерская корпорация.
  • Саттон, Р. С., и Барто, А. Г. (1998). Обучение с подкреплением: введение. Пресса MIT.

Первоначально опубликовано на https://ekababisong.org.