Глубокое обучение с подкреплением

Политика

Политика — это поведение агента, которое отображает состояние агента в действие. По сути, существует два типа политик — детерминированные и стохастические.

Детерминированная политика

где a — набор действий, s — текущее состояние, а pi — политика.

Стохастическая политика

Значение Функция

Функция ценности — это предсказание будущего вознаграждения агента. Функция значения оценивает качество/плохо данного состояния. Это позволяет агенту выбирать между действиями.

Модель

Модель предсказывает, что среда будет делать дальше. P предсказывает следующее состояние, R предсказывает следующую (немедленную) награду.

Пример лабиринта

Возьмем в качестве примера лабиринт, в котором есть набор действий N, E, S и W. Состояние агента — это текущее местоположение агента. Среда дает вознаграждение в размере -1 за каждую отметку времени.

Давайте рассмотрим пример политики для каждого состояния S.

Функция ценности для каждого состояния S в лабиринте —

Пример лабиринта: модель

Агент может иметь внутреннюю модель среды
Динамика: как действия меняют состояние агента
Награда: сколько награды за каждое состояние
Макет сетки представляет переходную модель P, где число представляет R из каждого состояния s.

Классификация агентов RL

Агенты RL можно разделить на следующие категории:

Основанный на стоимости

Нет политики (неявно)
Значение Функция

Основанный на политике

Политика
Функция без значения

Актер Критик

Политика
Значение Функция

Модель Бесплатно

Политика и/или функция ценности
Нет модели

Модель на основе

Политика и/или функция ценности
Модель

Вот таксономия агентов RL-

Пример обучения с подкреплением

Примеры Атари

Правила игры неизвестны
Учитесь непосредственно в интерактивной игре
Выбирайте действия на джойстике, смотрите пиксели и баллы

Краткое содержание

Прочитав эту статью, вы должны знать следующее —

Узнайте о различных типах политик.
Понимание основ функции ценности
Понять, что такое модель
Обсудить таксономию различных типов агентов RL
Погрузитесь в пример RL для игр Atari

Если вам понравилось, пожалуйста, поделитесь историей с остальным сообществом…

Там много мусора, поэтому, если вы думаете, что этот блог лучше, чем большинство альтернатив, пожалуйста, помогите ему выделиться из шума, поделившись им со своим сообществом.

P.S. Вы когда-нибудь пытались нажать кнопку хлопка на Medium более одного раза, чтобы посмотреть, что произойдет? ❤️

Нравится автор? Присоединяйтесь к сообществу Tech Insights

Давай будем друзьями! Вы можете найти меня в Твиттере. Пожалуйста, подпишитесь на меня, если вам нравятся статьи на похожие темы.

Глубокое обучение с подкреплением — Часть 2 Введение в RL