Политика
Политика — это поведение агента, которое отображает состояние агента в действие. По сути, существует два типа политик — детерминированные и стохастические.
Детерминированная политика
где a — набор действий, s — текущее состояние, а pi — политика.
Стохастическая политика
Значение Функция
Функция ценности — это предсказание будущего вознаграждения агента. Функция значения оценивает качество/плохо данного состояния. Это позволяет агенту выбирать между действиями.
Модель
Модель предсказывает, что среда будет делать дальше. P предсказывает следующее состояние, R предсказывает следующую (немедленную) награду.
Пример лабиринта
Возьмем в качестве примера лабиринт, в котором есть набор действий N, E, S и W. Состояние агента — это текущее местоположение агента. Среда дает вознаграждение в размере -1 за каждую отметку времени.
Давайте рассмотрим пример политики для каждого состояния S.
Функция ценности для каждого состояния S в лабиринте —
Пример лабиринта: модель
- Агент может иметь внутреннюю модель среды
- Динамика: как действия меняют состояние агента
- Награда: сколько награды за каждое состояние
- Макет сетки представляет переходную модель P, где число представляет R из каждого состояния s.
Классификация агентов RL
Агенты RL можно разделить на следующие категории:
Основанный на стоимости
- Нет политики (неявно)
- Значение Функция
Основанный на политике
- Политика
- Функция без значения
Актер Критик
- Политика
- Значение Функция
Модель Бесплатно
- Политика и/или функция ценности
- Нет модели
Модель на основе
- Политика и/или функция ценности
- Модель
Вот таксономия агентов RL-
Пример обучения с подкреплением
Примеры Атари
- Правила игры неизвестны
- Учитесь непосредственно в интерактивной игре
- Выбирайте действия на джойстике, смотрите пиксели и баллы
Краткое содержание
Прочитав эту статью, вы должны знать следующее —
- Узнайте о различных типах политик.
- Понимание основ функции ценности
- Понять, что такое модель
- Обсудить таксономию различных типов агентов RL
- Погрузитесь в пример RL для игр Atari
Если вам понравилось, пожалуйста, поделитесь историей с остальным сообществом…
Там много мусора, поэтому, если вы думаете, что этот блог лучше, чем большинство альтернатив, пожалуйста, помогите ему выделиться из шума, поделившись им со своим сообществом.
P.S. Вы когда-нибудь пытались нажать кнопку хлопка на Medium более одного раза, чтобы посмотреть, что произойдет? ❤️
Нравится автор? Присоединяйтесь к сообществу Tech Insights
Давай будем друзьями! Вы можете найти меня в Твиттере. Пожалуйста, подпишитесь на меня, если вам нравятся статьи на похожие темы.