На основе политики: методы на основе политики изучают функцию значения или политику, которая используется для принятия решений непосредственно на основе данных, собранных агентом во время следуя своей нынешней политике. Политика, которую изучает агент, совпадает с той, которую он использует для взаимодействия со средой.

Вне политики: методы вне политики, с другой стороны, изучают функцию значения или политику, используя данные, собранные другой политикой. Изученная политика может отличаться от той, которую агент использует для сбора данных.

Вот пример, иллюстрирующий разницу между методами политики и вне политики:

Пример 1:

Предположим, агент пытается изучить правила игры в шахматы.

При подходе, основанном на политике, агент будет играть в игру против самого себя и обновлять свою политику на основе результатов этих игр. Агент будет учиться только на собственном опыте и будет постоянно обновлять свою политику в зависимости от своего текущего поведения.

При нестандартном подходе агент будет учиться из другого источника данных, например, от эксперта-человека или из уже существующей базы данных игр. Агент попытается определить оптимальную политику на основе этих данных, даже если данные были собраны с использованием политики, отличной от той, которой в данный момент придерживается агент.

Преимущество внеполитических методов заключается в том, что они могут учиться на более разнообразных источниках данных, что в некоторых случаях может привести к более быстрому обучению и повышению производительности. Однако они также могут быть более сложными и требовать больше данных для изучения точной политики. Методы политики, с другой стороны, могут легче сходиться к стабильной политике, но могут быть ограничены качеством политики, которой они придерживаются в настоящее время.

Почему изученная политика может отличаться от той, которую агент использует для сбора данных?

Это связано с тем, что данные, используемые для обучения, могут поступать из другого источника, например из ранее существовавшего набора данных или вообще из другой политики. Агент может научиться следовать лучшей политике, чем та, которую он использует для сбора данных, что может привести к повышению производительности в долгосрочной перспективе.