Краткое содержание главы RLBook.
Это краткое изложение главы одной из самых популярных книг по обучению с подкреплением, созданной Ричардом С. Саттоном и Эндрю Дж. Барто ( 2-е издание) . Книгу можно найти здесь: Ссылка.
Обучение с подкреплением - это обучение тому, что делать - как соотносить ситуации с действиями - чтобы максимизировать числовой сигнал вознаграждения. Агент обучения может предпринимать действия, которые влияют на состояние окружающей среды, и иметь цели, связанные с состоянием окружающей среды. Одна из проблем, возникающих при обучении с подкреплением, а не при других видах обучения, - это поиск компромисса между исследованием и эксплуатацией. Из всех форм машинного обучения обучение с подкреплением наиболее близко к тому виду обучения, которое получают люди и другие животные.
Элементы обучения с подкреплением
Помимо агента и среды, можно выделить четыре основных подэлемента RL.
- Политика - отображение воспринимаемых состояний окружающей среды и действий, которые необходимо предпринять в этих состояниях. Политика является ядром агента обучения с подкреплением в том смысле, что одного ее достаточно для определения поведения. Может быть, стохастический, с указанием вероятностей для каждого действия.
- Награды - на каждом временном шаге среда отправляет агенту обучения с подкреплением одно число, называемое наградой. Единственная цель агента - максимизировать общее вознаграждение, которое он получает в долгосрочной перспективе. Таким образом, сигнал вознаграждения определяет, какие сигналы для агента являются хорошими и плохими. Возможно, это стохастическая функция состояния и действия.
- Функция значения -, грубо говоря, значение состояния - это общая сумма вознаграждения, которую агент может ожидать накопить в будущем, начиная с этого состояния. В то время как вознаграждения определяют непосредственную внутреннюю желательность состояний окружающей среды, ценности указывают на долгосрочную желательность состояний после учета состояний, которые могут последовать, и вознаграждений, доступных в этих состояниях. Например, состояние всегда может давать низкое немедленное вознаграждение, но все же иметь высокое значение, потому что за ним регулярно следуют другие состояния, которые приносят высокие вознаграждения, или наоборот.
- Модель среды - имитирует поведение среды, что позволяет делать выводы о ее поведении. Например, с учетом состояния и действия модель может предсказать следующее результирующее состояние и следующую награду. Методы решения проблем обучения с подкреплением, в которых используются модели, называются методами на основе моделей, в отличие от более простых методов, не использующих модели, методом проб и ошибок.
Награды в некотором смысле первичны, тогда как ценности, как предсказания вознаграждений, вторичны. Без вознаграждений не может быть ценностей, и единственная цель оценки ценностей - добиться большего вознаграждения. Тем не менее, при принятии и оценке решений мы больше всего заботимся о ценностях.
Пример: крестики-нолики
Подход к обучению с подкреплением для решения крестиков-ноликов:
- Составьте таблицу чисел, по одной для каждого возможного состояния игры.
- Каждое число будет нашей последней оценкой нашей вероятности выигрыша из этого состояния.
- Эта оценка представляет собой значение состояния, а вся таблица представляет собой функцию усвоенного значения.
- Если предположить, что мы всегда играем крестиками, то для всех состояний с 3 крестиками подряд (столбец и диагональ) вероятность выигрыша равна 1,0.
- И для всех состояний с 3 О в ряду (столбец и диагональ) вероятность выигрыша равна 0,0.
- Мы устанавливаем начальные значения для всех остальных состояний равными 0,5 (что означает, что у нас есть 50% шанс на победу.)
Затем мы играем много игр против соперника. Чтобы выбрать наши ходы:
- Мы исследуем состояния, которые могут возникнуть в результате каждого из наших возможных ходов, и ищем их текущие значения в таблице.
- Большую часть времени мы движемся жадно, выбирая ход, который приводит к состоянию с наибольшей ценностью. (наибольшая вероятность выигрыша)
- Иногда вместо этого мы выбираем случайным образом из других ходов. (Исследование)
Во время игры мы меняем значения состояний, в которых находимся:
- После каждого жадного движения от A к B мы обновляем значение A, чтобы оно было ближе к значению B.
- Это достигается с помощью следующей формулы
где,
V (S_t) - значение более старого состояния, состояние перед жадным ходом (A)
V (S_t + 1) - значение нового состояния, состояние после жадного хода (B)
alpha - скорость обучения
Это правило обновления является примером метода обучения временной разнице, названного так потому, что его изменения основаны на разнице V(S_t+1) — V(S_t)
между оценками в два последовательных раза.
Спасибо за внимание! Будет обновлено, если я найду некоторые идеи, которые необходимо упомянуть в книге.