1. SAUTE RL: почти наверняка безопасное обучение с подкреплением с использованием расширения состояния (arXiv)

Автор: Айвар Сутла, Александр И. Коуэн-Риверс, Тахер Джафферджи, Зиян Ван, Дэвид Мгуни, Джун Ван, Хайтам Бу-Аммар.

Вывод:удовлетворение требованиям безопасности почти наверняка (или с вероятностью один) может иметь решающее значение для развертывания обучения с подкреплением (RL) в реальных приложениях. Например, посадка и взлет самолета в идеале должны происходить с вероятностью один. Мы решаем эту проблему, вводя марковские процессы принятия решений (MDP), дополненные безопасностью (Saute), в которых ограничения безопасности устраняются путем добавления их в пространство состояний и изменения формы цели. Мы показываем, что Saute MDP удовлетворяет уравнению Беллмана и приближает нас к решению Safe RL с почти наверняка выполненными ограничениями. Мы утверждаем, что Saute MDP позволяет взглянуть на проблему Safe RL с другой точки зрения, открывая новые возможности. Например, наш подход носит принцип plug-and-play, т. е. любой алгоритм RL можно «обжарить». Кроме того, расширение состояния позволяет обобщать политику с учетом ограничений безопасности. Наконец, мы показываем, что алгоритмы Saute RL могут превзойти свои современные аналоги, когда удовлетворение ограничений имеет большое значение.

2.О решениях распределительного уравнения Беллмана(arXiv)

Автор: Юлиан Герстенберг, Ральф Найнингер, Денис Шпигель

Аннотация: при распределенном обучении с подкреплением учитываются не только ожидаемые результаты, но и полные распределения результатов политики. Распределение доходности для фиксированной политики дается как решение связанного распределительного уравнения Беллмана. В этой заметке мы рассматриваем общие распределительные уравнения Беллмана и изучаем существование и единственность их решений, а также хвостовые свойства обратных распределений. Приводятся необходимые и достаточные условия существования и единственности распределений доходности и выявляются случаи регулярной вариации. Мы связываем уравнения распределения Беллмана с многомерными аффинными уравнениями распределения. Мы показываем, что любое решение распределительного уравнения Беллмана может быть получено как вектор маргинальных законов решения многомерного аффинного распределительного уравнения. Это делает общую теорию таких уравнений применимой к условиям обучения с распределенным подкреплением.

3. Экспоненциальное уравнение Беллмана и улучшенные границы сожаления для чувствительного к риску обучения с подкреплением (arXiv)

Автор: Инцзе Фэй, Чжуоран Ян, Юдун Чен, Чжаоран Ван

Аннотация: мы изучаем чувствительное к риску обучение с подкреплением (RL) на основе энтропийной меры риска. Хотя существующие работы установили неасимптотические гарантии сожаления для этой проблемы, они оставляют открытым экспоненциальный разрыв между верхней и нижней границами. Мы выявляем недостатки существующих алгоритмов и их анализ, которые приводят к такому разрыву. Чтобы исправить эти недостатки, мы исследуем простое преобразование чувствительных к риску уравнений Беллмана, которое мы называем экспоненциальным уравнением Беллмана. Экспоненциальное уравнение Беллмана вдохновляет нас на разработку нового анализа процедур резервного копирования Беллмана в чувствительных к риску алгоритмах RL и дополнительно мотивирует разработку нового механизма исследования. Мы показываем, что эти аналитические и алгоритмические инновации вместе приводят к улучшению верхних границ сожаления по сравнению с существующими.

4.Полулагранжева схема для уравнений Гамильтона-Якоби-Беллмана с наклонными граничными условиями(arXiv)

Автор:Элиза Кальцола, Элизабетта Карлини, Ксавье Дюпюи, Франсиско Дж. Сильва

Аннотация: в этой работе исследуется полностью дискретное полулагранжево приближение второго порядка, возможно, вырождающееся уравнение Гамильтона-Якоби-Беллмана (HJB) в ограниченной области с наклонными граничными условиями. Эти уравнения естественным образом возникают при изучении оптимального управления диффузионными процессами с косым отражением на границе области. Показано, что предложенная схема удовлетворяет свойству типа непротиворечивости, является монотонной и устойчивой. Нашим основным результатом является сходимость численного решения к единственному вязкостному решению уравнения HJB. Результат сходимости выполняется при том же асимптотическом соотношении между шагами дискретизации по времени и пространству, что и в классической постановке для полулагранжевых схем. Приведем некоторые численные результаты, подтверждающие численную сходимость схемы.

5. Анализ конечной выборки обучения TD вне политики с помощью обобщенных операторов Беллмана (arXiv)

Автор: Zaiwei Chen, Siva Theja Maguluri, Sanjay Shakkottai, Karthikeyan Shanmugam

Аннотация . Известно, что в обучении по временной разнице (TD) выборка вне политики более практична, чем выборка в соответствии с политикой, и отделение обучения от сбора данных позволяет повторно использовать данные. Известно, что оценка политики (включая многоэтапную выборку важности вне политики) интерпретируется как решение обобщенного уравнения Беллмана. В этой статье мы выводим границы конечной выборки для любого общего алгоритма стохастической аппроксимации, подобного ТД, не связанного с политикой, который находит решение для фиксированной точки этого обобщенного оператора Беллмана. Наш ключевой шаг — показать, что обобщенный оператор Беллмана одновременно является сжимающим отображением относительно взвешенной ℓp-нормы для каждого p из [1,∞) с общим коэффициентом сжатия. Известно, что обучение TD вне политики страдает от высокой дисперсии из-за коэффициентов выборки произведения важности. Для решения этой проблемы в литературе был предложен ряд алгоритмов (например, Qπ(λ), Tree-Backup(λ), Retrace(λ) и Q-trace). Наши результаты немедленно влекут за собой конечно-выборочные оценки этих алгоритмов. В частности, мы предоставляем первые известные гарантии конечной выборки для Qπ(λ), Tree-Backup(λ) и Retrace(λ), а также улучшаем лучшие известные оценки Q-трассировки в [19]. Более того, мы показываем компромиссы смещения и дисперсии в каждом из этих алгоритмов.