Политика

Политика — это поведение агента, которое отображает состояние агента в действие. По сути, существует два типа политик — детерминированные и стохастические.

Детерминированная политика

где a — набор действий, s — текущее состояние, а pi — политика.

Стохастическая политика

Значение Функция

Функция ценности — это предсказание будущего вознаграждения агента. Функция значения оценивает качество/плохо данного состояния. Это позволяет агенту выбирать между действиями.

Модель

Модель предсказывает, что среда будет делать дальше. P предсказывает следующее состояние, R предсказывает следующую (немедленную) награду.

Пример лабиринта

Возьмем в качестве примера лабиринт, в котором есть набор действий N, E, S и W. Состояние агента — это текущее местоположение агента. Среда дает вознаграждение в размере -1 за каждую отметку времени.

Давайте рассмотрим пример политики для каждого состояния S.

Функция ценности для каждого состояния S в лабиринте —

Пример лабиринта: модель

  • Агент может иметь внутреннюю модель среды
  • Динамика: как действия меняют состояние агента
  • Награда: сколько награды за каждое состояние
  • Макет сетки представляет переходную модель P, где число представляет R из каждого состояния s.

Классификация агентов RL

Агенты RL можно разделить на следующие категории:

Основанный на стоимости

  • Нет политики (неявно)
  • Значение Функция

Основанный на политике

  • Политика
  • Функция без значения

Актер Критик

  • Политика
  • Значение Функция

Модель Бесплатно

  • Политика и/или функция ценности
  • Нет модели

Модель на основе

  • Политика и/или функция ценности
  • Модель

Вот таксономия агентов RL-

Пример обучения с подкреплением

Примеры Атари

  • Правила игры неизвестны
  • Учитесь непосредственно в интерактивной игре
  • Выбирайте действия на джойстике, смотрите пиксели и баллы

Краткое содержание

Прочитав эту статью, вы должны знать следующее —

  • Узнайте о различных типах политик.
  • Понимание основ функции ценности
  • Понять, что такое модель
  • Обсудить таксономию различных типов агентов RL
  • Погрузитесь в пример RL для игр Atari

Если вам понравилось, пожалуйста, поделитесь историей с остальным сообществом…

Там много мусора, поэтому, если вы думаете, что этот блог лучше, чем большинство альтернатив, пожалуйста, помогите ему выделиться из шума, поделившись им со своим сообществом.

P.S. Вы когда-нибудь пытались нажать кнопку хлопка на Medium более одного раза, чтобы посмотреть, что произойдет? ❤️

Нравится автор? Присоединяйтесь к сообществу Tech Insights

Давай будем друзьями! Вы можете найти меня в Твиттере. Пожалуйста, подпишитесь на меня, если вам нравятся статьи на похожие темы.