Это политика обучения Монте-Карло или итерация ценности (или что-то еще)?

Я прохожу курс по обучению с подкреплением и не понимаю, как объединить концепции итерации политики/итерации значения с Монте-Карло (а также TD/SARSA/Q-обучение). В таблице ниже, как можно заполнить пустые ячейки: Должен/может ли это быть двоичным да/нет, каким-то строковым описанием или это сложнее?

Johan 07.05.2018 источник

comment

Как получилось домашнее задание? - R.F. Nelson 22.05.2018

comment

Спасибо за помощь! Это не домашнее задание, я просто составил таблицу, чтобы попытаться разобраться в понятиях, которые трудно разделить. Что вы имеете в виду, говоря, что традиционно итерация значения и итерация политики не считаются RL, поэтому TD и его варианты не применяют итерацию значения/политики? - Johan 23.05.2018

comment

Есть новости по этому вопросу? На самом деле я тоже хочу разобраться в этом. @Йохан - hridayns 08.01.2020

comment

Думаю, ответ будет «сложнее». Основная проблема с таблицей заключается в том, что строки показывают обучение с подкреплением, тогда как столбцы показывают динамическое программирование (планирование оптимальности). Хотя RL в значительной степени (но в разной степени) основан на DP, прямое сравнение не очень значимо из-за того, что: DP основан на модели (известная динамика перехода) и не производит выборку пространства состояний, тогда как RL не использует модель и выборки. Посмотрите «Курс RL Дэвида Сильвера» на YouTube (лекции 3-4) для хорошего объяснения. - Johan 08.01.2020

Ответы (1)

arrow_upward
2
arrow_downward

Итерация значения и итерация политики — это основанные на модели методы поиска оптимальной политики. Они пытаются построить марковский процесс принятия решений (MDP) среды. Основная предпосылка обучения с подкреплением заключается в том, что вам не нужен MDP среды, чтобы найти оптимальную политику, и традиционно итерация ценности и итерация политики не считаются RL (хотя их понимание является ключом к концепциям RL). Итерация ценности и итерация политики обучаются «косвенно», потому что они формируют модель среды и затем могут извлекать оптимальную политику из этой модели.

«Прямые» методы обучения не пытаются построить модель окружающей среды. Они могут искать оптимальную политику в политическом пространстве или использовать методы обучения, основанные на функции ценности (также известные как «основанные на ценности»). Большинство подходов, о которых вы узнаете в наши дни, как правило, основаны на функциях ценности.

В рамках методов, основанных на функции ценности, существует два основных типа методов обучения с подкреплением:

Методы, основанные на итерации политики
Методы на основе итерации значений

Ваша домашняя работа спрашивает вас, для каждого из этих методов RL, основаны ли они на итерации политики или итерации значения.

Подсказка: один из этих пяти методов RL не похож на другие.

R.F. Nelson 10.05.2018

Это политика обучения Монте-Карло или итерация ценности (или что-то еще)?

Ответы (1)

Вопросы по теме