Краткое содержание главы RLBook.

Это краткое изложение главы одной из самых популярных книг по обучению с подкреплением, созданной Ричардом С. Саттоном и Эндрю Дж. Барто ( 2-е издание) . Книгу можно найти здесь: Ссылка.

Обучение с подкреплением - это обучение тому, что делать - как соотносить ситуации с действиями - чтобы максимизировать числовой сигнал вознаграждения. Агент обучения может предпринимать действия, которые влияют на состояние окружающей среды, и иметь цели, связанные с состоянием окружающей среды. Одна из проблем, возникающих при обучении с подкреплением, а не при других видах обучения, - это поиск компромисса между исследованием и эксплуатацией. Из всех форм машинного обучения обучение с подкреплением наиболее близко к тому виду обучения, которое получают люди и другие животные.

Элементы обучения с подкреплением

Помимо агента и среды, можно выделить четыре основных подэлемента RL.

  1. Политика - отображение воспринимаемых состояний окружающей среды и действий, которые необходимо предпринять в этих состояниях. Политика является ядром агента обучения с подкреплением в том смысле, что одного ее достаточно для определения поведения. Может быть, стохастический, с указанием вероятностей для каждого действия.
  2. Награды - на каждом временном шаге среда отправляет агенту обучения с подкреплением одно число, называемое наградой. Единственная цель агента - максимизировать общее вознаграждение, которое он получает в долгосрочной перспективе. Таким образом, сигнал вознаграждения определяет, какие сигналы для агента являются хорошими и плохими. Возможно, это стохастическая функция состояния и действия.
  3. Функция значения -, грубо говоря, значение состояния - это общая сумма вознаграждения, которую агент может ожидать накопить в будущем, начиная с этого состояния. В то время как вознаграждения определяют непосредственную внутреннюю желательность состояний окружающей среды, ценности указывают на долгосрочную желательность состояний после учета состояний, которые могут последовать, и вознаграждений, доступных в этих состояниях. Например, состояние всегда может давать низкое немедленное вознаграждение, но все же иметь высокое значение, потому что за ним регулярно следуют другие состояния, которые приносят высокие вознаграждения, или наоборот.
  4. Модель среды - имитирует поведение среды, что позволяет делать выводы о ее поведении. Например, с учетом состояния и действия модель может предсказать следующее результирующее состояние и следующую награду. Методы решения проблем обучения с подкреплением, в которых используются модели, называются методами на основе моделей, в отличие от более простых методов, не использующих модели, методом проб и ошибок.

Награды в некотором смысле первичны, тогда как ценности, как предсказания вознаграждений, вторичны. Без вознаграждений не может быть ценностей, и единственная цель оценки ценностей - добиться большего вознаграждения. Тем не менее, при принятии и оценке решений мы больше всего заботимся о ценностях.

Пример: крестики-нолики

Подход к обучению с подкреплением для решения крестиков-ноликов:

  1. Составьте таблицу чисел, по одной для каждого возможного состояния игры.
  2. Каждое число будет нашей последней оценкой нашей вероятности выигрыша из этого состояния.
  3. Эта оценка представляет собой значение состояния, а вся таблица представляет собой функцию усвоенного значения.
  4. Если предположить, что мы всегда играем крестиками, то для всех состояний с 3 крестиками подряд (столбец и диагональ) вероятность выигрыша равна 1,0.
  5. И для всех состояний с 3 О в ряду (столбец и диагональ) вероятность выигрыша равна 0,0.
  6. Мы устанавливаем начальные значения для всех остальных состояний равными 0,5 (что означает, что у нас есть 50% шанс на победу.)

Затем мы играем много игр против соперника. Чтобы выбрать наши ходы:

  1. Мы исследуем состояния, которые могут возникнуть в результате каждого из наших возможных ходов, и ищем их текущие значения в таблице.
  2. Большую часть времени мы движемся жадно, выбирая ход, который приводит к состоянию с наибольшей ценностью. (наибольшая вероятность выигрыша)
  3. Иногда вместо этого мы выбираем случайным образом из других ходов. (Исследование)

Во время игры мы меняем значения состояний, в которых находимся:

  1. После каждого жадного движения от A к B мы обновляем значение A, чтобы оно было ближе к значению B.
  2. Это достигается с помощью следующей формулы

где,
V (S_t) - значение более старого состояния, состояние перед жадным ходом (A)
V (S_t + 1)
- значение нового состояния, состояние после жадного хода (B)
alpha
- скорость обучения

Это правило обновления является примером метода обучения временной разнице, названного так потому, что его изменения основаны на разнице V(S_t+1) — V(S_t) между оценками в два последовательных раза.

Спасибо за внимание! Будет обновлено, если я найду некоторые идеи, которые необходимо упомянуть в книге.