Введение в обучение с подкреплением
Фундаментальный уровень настройки обучения с подкреплением состоит из Агента, взаимодействующего со Средой в цикле обратной связи. Агент выбирает действие для каждого состояния в момент времени s_t
среды на основе ответа, который он получил от среды в предыдущем состоянии в момент времени s_{t-1}
. Исходя из этой базовой настройки, мы уже можем определить два основных компонента в настройке обучения с подкреплением: Агент и Среда.
Когда агент взаимодействует со средой, он изучает политику. Политика - это «усвоенная стратегия», которая управляет поведением агентов при выборе действия в определенное время t
Окружающей среды. Политику можно рассматривать как отображение состояний Окружающей среды и действий, предпринимаемых в этих состояниях.
Цель Агента подкрепления - максимизировать свои долгосрочные вознаграждения, поскольку он взаимодействует с Окружением в конфигурации обратной связи. Ответ, который Агент получает от каждого цикла состояние-действие (где Агент выбирает действие из набора действий в каждом состоянии Окружающей среды), называется функцией вознаграждения. Функция вознаграждения (или просто вознаграждения) является сигналом о желательности этого состояния на основе действия, совершенного Агентом.
«Благоприятное» вознаграждение может указывать на хорошее немедленное событие (то есть пару состояние-действие) для Агента. С другой стороны, «неблагоприятное» вознаграждение может указывать на плохое событие для Агента. Функция вознаграждения уникальна для проблемы, с которой сталкивается агент подкрепления, и влияет на выбор оптимальной политики, которую проводит агент. Функция вознаграждения во многом определяет задачу обучения с подкреплением.
Другой важный компонент - это идея функции значения (или просто значений). Когда Агент выполняет действие в определенном состоянии Окружающей среды, функция вознаграждения сообщает Агенту о немедленной и внутренней желательности состояния. Однако может оказаться, что состояние с немедленной высокой наградой может привести к другим состояниям, которые крайне нежелательны. Это нехорошо, поскольку цель агента RL - максимизировать долгосрочное вознаграждение. Функция ценности состояния - это ожидаемая долгосрочная желательность текущего состояния с учетом вероятных будущих состояний и их функций вознаграждения.
В конечном итоге, хотя цель агента RL - максимизировать ценности, вознаграждения - это основные сигналы, получаемые агентом при его взаимодействии с окружающей средой. Идея оценки ценностей заключается в повышении качества вознаграждений на каждом этапе взаимодействия агента и среды. Следовательно, когда агент выполняет действие в состоянии, он делает это на основе оценок значений, чтобы он мог переходить в новые состояния с высокими значениями, что, следовательно, приводит к долгосрочным вознаграждениям.
Вознаграждения дешево получить, поскольку они, по сути, являются обратной связью, полученной непосредственно от Окружающей среды. С другой стороны, значения должны постоянно оцениваться, поскольку Агент итеративно взаимодействует со Средой и собирает больше информации. Задача поиска эффективного метода оценки ценностей является центральной при разработке современных алгоритмов обучения с подкреплением.
Однако важно отметить, что, хотя оценка функций ценности повлияла на многие идеи в современной литературе по RL, проблемы обучения с подкреплением все еще можно решать без оценки значений. Но, конечно, эффективность, пригодность и масштабируемость таких методов - это отдельный разговор.
Наконец, нам нужна модель Окружающей среды, чтобы изучить оптимальную политику для агента обучения с подкреплением. Модель Окружающей среды должна каким-то образом отражать стохастическую природу Окружающей среды и возвращать следующее состояние и ответ Агенту при выполнении действия. Наличие модели Окружающей среды полезно при планировании, когда агент рассматривает возможные будущие результаты, прежде чем предпринимать какие-либо действия. В любом случае системы обучения с подкреплением также могут быть элементарными методами обучения методом проб и ошибок, как это видно из теории обучающих автоматов. Агент, который учится методом проб и ошибок, также может изучить модель Окружающей среды и позже использовать ее для расчетного планирования.
Библиография
- Нарендра, К.С., и Татачар, М.А. (2012). Обучающие автоматы: Введение. Курьерская корпорация.
- Саттон, Р. С., и Барто, А. Г. (1998). Обучение с подкреплением: введение. Пресса MIT.
Первоначально опубликовано на https://ekababisong.org.