Часть 1 здесь.

Основная идея:

  • Получите обратную связь в виде вознаграждения.
  • Полезность агента определяется функцией вознаграждения.
  • Должен действовать так, чтобы максимизировать ожидаемое вознаграждение.
  • Все обучение основано на наблюдаемых образцах результатов.

По-прежнему предположим, что MDP:
Новый поворот: мы не знаем T или R.

  • то есть мы не знаем, какие состояния хороши или какие действия делать.
  • Должны на самом деле попробовать действия и состояния, чтобы узнать

Неизвестный MDP: обучение на основе моделей

  • Изучите примерную модель, основанную на опыте.
  • Решите для значений, как если бы изученная модель была правильной.
  • E[A] = ΣP(a).a

Неизвестный MDP: обучение без использования моделей

Пассивное обучение с подкреплением:

  • Упрощенная задача: оценка политики
    1. Вход: фиксированная политика Π(s)
    2. Вы не знаете переходы T(s,a,s')
    3. Вы не знаете t знаю награды R(s,a,s')
  • Прямая оценка:
    Цель: вычислить значения для каждого штата в соответствии с Π
    Идея: усреднить вместе наблюдаемые выборочные значения.
    Действовать в соответствии с Π.
    Каждый раз, когда вы посещаете штат, записывайте, что сумма дисконтированных вознаграждений оказалась равной.
    Усредните эти выборки.

Чем хороша прямая оценка?

Его легко понять.
Он не требует каких-либо знаний о T, R.
В конечном итоге он вычисляет правильные средние значения, используя только выборочные переходы.

Что в этом плохого?

Это тратит информацию о соединении состояний.
Каждое состояние нужно изучать отдельно. Итак, для обучения требуется логарифмическое время.

  • Оценка политики на основе выборки:
    Возьмем образцы результата s’ (путем выполнения действий!) и среднего значения.
    Мы хотим улучшить нашу оценку V, вычислив эти средние значения.
  • Обучение на основе временной разницы
    Основная идея: учиться на каждом опыте!
    Обновлять V(s) каждый раз, когда мы сталкиваемся с переходом (s,a,s',r)
    Вероятные результаты будут чаще обновляться.

Изучение временной разницы значений:
Политика по-прежнему исправлена, оценка все еще выполняется!
Переместить значения в сторону значения любого следующего преемника: выполняется avg

Выборка V(s): выборка = R(s,Π(s),s’) + ϒV(s’)

Обновление V(s): V(s) ⇐ (1-α)V(s) + (α)sample
Также может быть записано как: V(s) ⇐ V(s) + (α)[ образец — V(s)]

Проблемы с обучением ценности TD:
Изучение ценности TD — это модель — бесплатный способ проведения оценки политики, имитирующий обновления Беллмана с бегущими средними значениями выборки.
Идея: Изучайте Q-значения, а не значения. Делает модель выбора действий — тоже бесплатно!

Активное обучение с подкреплением:

  • Итерация значений:
    1. Начните с Q(s,a) = 0, что, как мы знаем, верно.
    2. Учитывая Qk, вычислите глубину k+1
    3. Q-значения для всех Q-состояний:
    Qk+1 (s,a) ⇐ ∑ T(s,a,s')[R(s,a,s') + ϒmax Qk(s,a)]
  • Q-обучение:
    Изучайте значения Q(s,a) по мере продвижения
    1. Получите образец (s,a,s',r)
    2. Рассмотрите свою старую оценку: Q (s,a)
    3. Рассмотрим новую оценку выборки:
    sample = R(s,a,s') + ϒmax Q(s',a')
    4. Включите новая оценка в скользящее среднее:
    Q(s,a): V(s) ⇐ (1-α)Q(s,a) + (α)[выборка]
    Q-обучение сходится к оптимальная политика — даже если вы действуете неоптимально!
    Это называется обучением вне политики.
  • Предостережения:
    1. Вы должны исследовать достаточно.
    2. В конечном итоге вы должны сделать скорость обучения достаточно низкой.
    3… но не снижать ее слишком быстро.
    4. В принципе, в лимите не имеет значения, как вы выбираете действия!

Хорошо, это пока! Спасибо, что потратили свое время. Ваше здоровье!