Обучение с подкреплением

Часть 1 здесь.

Основная идея:

Получите обратную связь в виде вознаграждения.
Полезность агента определяется функцией вознаграждения.
Должен действовать так, чтобы максимизировать ожидаемое вознаграждение.
Все обучение основано на наблюдаемых образцах результатов.

По-прежнему предположим, что MDP:
Новый поворот: мы не знаем T или R.

то есть мы не знаем, какие состояния хороши или какие действия делать.
Должны на самом деле попробовать действия и состояния, чтобы узнать

Неизвестный MDP: обучение на основе моделей

Изучите примерную модель, основанную на опыте.
Решите для значений, как если бы изученная модель была правильной.
E[A] = ΣP(a).a

Неизвестный MDP: обучение без использования моделей

Пассивное обучение с подкреплением:

Упрощенная задача: оценка политики
1. Вход: фиксированная политика Π(s)
2. Вы не знаете переходы T(s,a,s')
3. Вы не знаете t знаю награды R(s,a,s')
Прямая оценка:
Цель: вычислить значения для каждого штата в соответствии с Π
Идея: усреднить вместе наблюдаемые выборочные значения.
Действовать в соответствии с Π.
Каждый раз, когда вы посещаете штат, записывайте, что сумма дисконтированных вознаграждений оказалась равной.
Усредните эти выборки.

Чем хороша прямая оценка?

Его легко понять.
Он не требует каких-либо знаний о T, R.
В конечном итоге он вычисляет правильные средние значения, используя только выборочные переходы.

Что в этом плохого?

Это тратит информацию о соединении состояний.
Каждое состояние нужно изучать отдельно. Итак, для обучения требуется логарифмическое время.

Оценка политики на основе выборки:
Возьмем образцы результата s’ (путем выполнения действий!) и среднего значения.
Мы хотим улучшить нашу оценку V, вычислив эти средние значения.
Обучение на основе временной разницы
Основная идея: учиться на каждом опыте!
Обновлять V(s) каждый раз, когда мы сталкиваемся с переходом (s,a,s',r)
Вероятные результаты будут чаще обновляться.

Изучение временной разницы значений:
Политика по-прежнему исправлена, оценка все еще выполняется!
Переместить значения в сторону значения любого следующего преемника: выполняется avg

Выборка V(s): выборка = R(s,Π(s),s’) + ϒV(s’)

Обновление V(s): V(s) ⇐ (1-α)V(s) + (α)sample
Также может быть записано как: V(s) ⇐ V(s) + (α)[ образец — V(s)]

Проблемы с обучением ценности TD:
Изучение ценности TD — это модель — бесплатный способ проведения оценки политики, имитирующий обновления Беллмана с бегущими средними значениями выборки.
Идея: Изучайте Q-значения, а не значения. Делает модель выбора действий — тоже бесплатно!

Активное обучение с подкреплением:

Итерация значений:
1. Начните с Q(s,a) = 0, что, как мы знаем, верно.
2. Учитывая Qk, вычислите глубину k+1
3. Q-значения для всех Q-состояний:
Qk+1 (s,a) ⇐ ∑ T(s,a,s')[R(s,a,s') + ϒmax Qk(s,a)]
Q-обучение:
Изучайте значения Q(s,a) по мере продвижения
1. Получите образец (s,a,s',r)
2. Рассмотрите свою старую оценку: Q (s,a)
3. Рассмотрим новую оценку выборки:
sample = R(s,a,s') + ϒmax Q(s',a')
4. Включите новая оценка в скользящее среднее:
Q(s,a): V(s) ⇐ (1-α)Q(s,a) + (α)[выборка]
Q-обучение сходится к оптимальная политика — даже если вы действуете неоптимально!
Это называется обучением вне политики.
Предостережения:
1. Вы должны исследовать достаточно.
2. В конечном итоге вы должны сделать скорость обучения достаточно низкой.
3… но не снижать ее слишком быстро.
4. В принципе, в лимите не имеет значения, как вы выбираете действия!

Хорошо, это пока! Спасибо, что потратили свое время. Ваше здоровье!

Обучение с подкреплением — часть 2

Вопросы по теме