1. Постоянный поиск новых стратегий посредством оптимизации политики переключения вознаграждений (arXiv)

Автор:Zihan Zhou, Wei Fu, Bingliang Zhang, Yi Wu

Аннотация: мы представляем оптимизацию политик переключения вознаграждения (RSPO) — парадигму обнаружения разнообразных стратегий в сложных средах RL путем итеративного поиска новых политик, оптимальных локально и существенно отличающихся от существующих. Чтобы стимулировать политику обучения к последовательному сближению с ранее неизвестным локальным оптимумом, RSPO переключается между внешними и внутренними вознаграждениями посредством измерения новизны на основе траектории в процессе оптимизации. Когда выбранная траектория достаточно различна, RSPO выполняет стандартную оптимизацию политики с внешними вознаграждениями. Для траекторий с высокой вероятностью в соответствии с существующими политиками RSPO использует вознаграждение за внутреннее разнообразие для продвижения исследований. Эксперименты показывают, что RSPO может обнаруживать широкий спектр стратегий в самых разных областях, начиная от одноагентных задач в мире частиц и непрерывного контроля MuJoCo до многоагентных игр с охотой на оленей и задач StarCraftII.

2. К безболезненной оптимизации политик для ограниченных MDP (arXiv)

Автор:Аруши Джайн, Шаран Васвани, Реза Бабанежад, Чаба Сепешвари, Дойна Пречап

Аннотация: мы изучаем оптимизацию политики в бесконечном горизонте, γ-дисконтированный ограниченный марковский процесс принятия решений (CMDP). Наша цель — вернуть политику, которая обеспечивает большое ожидаемое вознаграждение при небольшом нарушении ограничений. Мы рассматриваем онлайн-настройку с аппроксимацией линейной функции и предполагаем глобальный доступ к соответствующим функциям. Мы предлагаем общую первично-двойственную структуру, которая позволяет нам ограничивать субоптимальность вознаграждения и нарушение ограничений для произвольных алгоритмов с точки зрения их первичного и двойного сожаления в задачах онлайн-линейной оптимизации. Мы создаем экземпляр этой структуры для использования алгоритмов ставок на монеты и предлагаем алгоритм Politex для ставок на монеты (CBP). Предполагая, что функции действия-значения εb-близки к диапазону d-мерных характеристик состояния-действия и отсутствуют ошибки выборки, мы доказываем, что T итераций CBP приводят к O(1(1−γ)3T√+εbd √(1−γ)2) вознаграждает субоптимальность и нарушение ограничения O(1(1−γ)2T√+εbd√1−γ). Важно отметить, что в отличие от градиентного спуска-подъема и других современных методов CBP не требует обширной настройки гиперпараметров. С помощью экспериментов на синтетических средах и средах Cartpole мы демонстрируем эффективность и надежность CBP.

3. Оптимизация политики ограничения памяти (arXiv)

Автор: Хунг Ле, Томмен Каримпанал Джордж, Маджид Абдолшах, Дунг Нгуен, Киен До, Сунил Гупта, Света Венкатеш

Аннотация: мы представляем новый метод ограниченной оптимизации для обучения с подкреплением градиента политики, который использует две области доверия для регулирования каждого обновления политики. В дополнение к использованию близости одной старой политики в качестве первой области доверия, как это было сделано в предыдущих работах, мы предлагаем сформировать вторую область доверия путем построения другой виртуальной политики, которая представляет широкий спектр прошлых политик. Затем мы применяем новую политику, чтобы оставаться ближе к виртуальной политике, что полезно в случае плохой работы старой политики. Что еще более важно, мы предлагаем механизм автоматического создания виртуальной политики из буфера памяти прошлых политик, предоставляя новую возможность динамического выбора соответствующих областей доверия в процессе оптимизации. Предлагаемый нами метод, получивший название «Оптимизация политик с ограничением памяти» (MCPO), исследуется в различных средах, включая роботизированное управление движением, навигацию с редкими наградами и игры Atari, постоянно демонстрируя конкурентоспособность по сравнению с последними методами градиента политик с ограничениями в соответствии с политикой.

4.Обобщение, хаос и ограничения в повторяющейся проксимальной оптимизации политики (arXiv)

Автор: Марко Плейнс, Маттиас Паллаш, Фрэнк Циммер, Майк Прейсс

Аннотация: На первый взгляд может показаться простым использовать повторяющиеся слои в алгоритмах глубокого обучения с подкреплением, чтобы позволить агентам использовать память в условиях частично наблюдаемой среды. Начиная с широко используемой оптимизации проксимальной политики (PPO), мы выделяем жизненно важные детали, которые необходимо учитывать при добавлении повторения для достижения правильной и эффективной реализации, а именно: правильное формирование прямого прохода нейронной сети, организация обучающих данных, соответствующий выбор скрытых состояний. для начала последовательности и маскирования заполнения для вычисления потерь. Мы дополнительно изучаем ограничения повторяющегося PPO, сравнивая добавленные новые среды Mortar Mayhem и Searing Spotlights, которые бросают вызов памяти агента не только в задачах емкости и отвлечения внимания. Примечательно, что мы можем продемонстрировать переход к сильному обобщению в Mortar Mayhem при масштабировании количества обучающих семян, в то время как агент не преуспевает в Searing Spotlights, что кажется сложной задачей для агентов на основе памяти.