Часть 1 здесь.
Основная идея:
- Получите обратную связь в виде вознаграждения.
- Полезность агента определяется функцией вознаграждения.
- Должен действовать так, чтобы максимизировать ожидаемое вознаграждение.
- Все обучение основано на наблюдаемых образцах результатов.
По-прежнему предположим, что MDP:
Новый поворот: мы не знаем T или R.
- то есть мы не знаем, какие состояния хороши или какие действия делать.
- Должны на самом деле попробовать действия и состояния, чтобы узнать
Неизвестный MDP: обучение на основе моделей
- Изучите примерную модель, основанную на опыте.
- Решите для значений, как если бы изученная модель была правильной.
- E[A] = ΣP(a).a
Неизвестный MDP: обучение без использования моделей
Пассивное обучение с подкреплением:
- Упрощенная задача: оценка политики
1. Вход: фиксированная политика Π(s)
2. Вы не знаете переходы T(s,a,s')
3. Вы не знаете t знаю награды R(s,a,s') - Прямая оценка:
Цель: вычислить значения для каждого штата в соответствии с Π
Идея: усреднить вместе наблюдаемые выборочные значения.
Действовать в соответствии с Π.
Каждый раз, когда вы посещаете штат, записывайте, что сумма дисконтированных вознаграждений оказалась равной.
Усредните эти выборки.
Чем хороша прямая оценка?
Его легко понять.
Он не требует каких-либо знаний о T, R.
В конечном итоге он вычисляет правильные средние значения, используя только выборочные переходы.
Что в этом плохого?
Это тратит информацию о соединении состояний.
Каждое состояние нужно изучать отдельно. Итак, для обучения требуется логарифмическое время.
- Оценка политики на основе выборки:
Возьмем образцы результата s’ (путем выполнения действий!) и среднего значения.
Мы хотим улучшить нашу оценку V, вычислив эти средние значения. - Обучение на основе временной разницы
Основная идея: учиться на каждом опыте!
Обновлять V(s) каждый раз, когда мы сталкиваемся с переходом (s,a,s',r)
Вероятные результаты будут чаще обновляться.
Изучение временной разницы значений:
Политика по-прежнему исправлена, оценка все еще выполняется!
Переместить значения в сторону значения любого следующего преемника: выполняется avg
Выборка V(s): выборка = R(s,Π(s),s’) + ϒV(s’)
Обновление V(s): V(s) ⇐ (1-α)V(s) + (α)sample
Также может быть записано как: V(s) ⇐ V(s) + (α)[ образец — V(s)]
Проблемы с обучением ценности TD:
Изучение ценности TD — это модель — бесплатный способ проведения оценки политики, имитирующий обновления Беллмана с бегущими средними значениями выборки.
Идея: Изучайте Q-значения, а не значения. Делает модель выбора действий — тоже бесплатно!
Активное обучение с подкреплением:
- Итерация значений:
1. Начните с Q(s,a) = 0, что, как мы знаем, верно.
2. Учитывая Qk, вычислите глубину k+1
3. Q-значения для всех Q-состояний:
Qk+1 (s,a) ⇐ ∑ T(s,a,s')[R(s,a,s') + ϒmax Qk(s,a)] - Q-обучение:
Изучайте значения Q(s,a) по мере продвижения
1. Получите образец (s,a,s',r)
2. Рассмотрите свою старую оценку: Q (s,a)
3. Рассмотрим новую оценку выборки:
sample = R(s,a,s') + ϒmax Q(s',a')
4. Включите новая оценка в скользящее среднее:
Q(s,a): V(s) ⇐ (1-α)Q(s,a) + (α)[выборка]
Q-обучение сходится к оптимальная политика — даже если вы действуете неоптимально!
Это называется обучением вне политики. - Предостережения:
1. Вы должны исследовать достаточно.
2. В конечном итоге вы должны сделать скорость обучения достаточно низкой.
3… но не снижать ее слишком быстро.
4. В принципе, в лимите не имеет значения, как вы выбираете действия!
Хорошо, это пока! Спасибо, что потратили свое время. Ваше здоровье!