1. Децентрализованное многоагентное обучение с подкреплением: метод вне политики (arXiv)

Автор:Куо Ли, Цин-Шань Цзя

Аннотация: в этой работе мы обсуждаем проблему децентрализованного многоагентного обучения с подкреплением (MARL). В наших настройках предполагается, что глобальное состояние, действие и вознаграждение полностью наблюдаемы, в то время как локальная политика защищена как конфиденциальная для каждого агента и, следовательно, не может быть передана другим. Имеется коммуникационный граф, среди которого агенты могут обмениваться информацией со своими соседями. Агенты принимают индивидуальные решения и сотрудничают, чтобы получить более высокую накопленную награду. С этой целью мы сначала предлагаем децентрализованную настройку актера-критика (AC). Затем алгоритмы оценки политики и улучшения политики разрабатываются для дискретного и непрерывного марковского процесса принятия решений в пространстве состояний и действий (MDP) соответственно. Кроме того, в случае дискретного пространства дается анализ конвергенции, который гарантирует, что политика будет усилена за счет чередования процессов оценки политики и ее улучшения. Чтобы проверить эффективность алгоритмов, мы разрабатываем эксперименты и сравниваем их с предыдущими алгоритмами, например, Q-learning \cite{watkins1992q} и MADDPG \cite{lowe2017multi}. Результаты показывают, что наши алгоритмы работают лучше с точки зрения как скорости обучения, так и конечной производительности. Более того, алгоритмы могут выполняться вне политики, что значительно повышает эффективность обработки данных по сравнению с алгоритмами на основе политики.

2. Нестандартное обучение с подкреплением с оптимистичным исследованием и коррекцией распределения (arXiv)

Автор: Цзячэнь Ли, Шо Чэн, Чжэньюй Ляо, Хуаянь Ван, Уильям Ян Ван, Циньсюнь Бай.

Вывод:повышение эффективности выборки алгоритмов обучения с подкреплением требует эффективного исследования. Следуя принципу оптимизма перед лицом неопределенности, мы тренируем отдельную политику разведки, чтобы максимизировать приблизительную верхнюю границу достоверности критиков в неполитической структуре действующий-критик. Однако это вносит дополнительные различия между буфером воспроизведения и целевой политикой с точки зрения их стационарных распределений состояния-действия. Чтобы смягчить противоречие политике, мы адаптируем недавно представленную структуру DICE, чтобы узнать поправочный коэффициент распределения для обучения актеров-критиков вне политики. В частности, корректируем раздачу обучения как политикам, так и критикам. Эмпирически мы оцениваем предлагаемый нами метод в нескольких сложных задачах непрерывного контроля и показываем превосходную производительность по сравнению с современными методами. Мы также проводим обширные исследования абляции, чтобы продемонстрировать эффективность и рациональность предлагаемого метода.

3. Объединение оценщиков градиента для обучения с метаподкреплением с помощью оценки вне политики (arXiv)

Автор: Юнхао Тан, Тадаши Кодзуно, Марк Роуленд, Реми Мунос, Михал Валко

Вывод:обучение с метаподкреплением, не зависящее от модели, требует оценки матрицы функций ценности Гессе. Это сложно с точки зрения реализации, поскольку многократное дифференцирование оценок градиента политики может привести к смещенным оценкам Гессе. В этой работе мы предлагаем унифицированную основу для оценки производных функций ценности более высокого порядка на основе оценки вне политики. Наша структура интерпретирует ряд предыдущих подходов как особые случаи и разъясняет компромисс между систематической ошибкой и дисперсией оценок Гессе. Эта структура также открывает двери для нового семейства оценок, которые можно легко реализовать с помощью библиотек автодифференциации и которые на практике приводят к повышению производительности.

4. Обучение с подкреплением вне политики с отложенным вознаграждением (arXiv)

Автор:Бэйнин Хань, Чжичжоу Рен, Цзуофан Ву, Юань Чжоу, Цзянь Пэн

Аннотация: мы изучаем алгоритмы глубокого обучения с подкреплением (RL) с отсроченным вознаграждением. Во многих реальных задачах мгновенные вознаграждения часто недоступны или даже не определяются сразу после выполнения действий агентом. В этой работе мы сначала формально определяем среду с отсроченным вознаграждением и обсуждаем проблемы, связанные с немарковской природой таких сред. Затем мы вводим общую неполитическую структуру RL с новой формулировкой Q-функции, которая может обрабатывать отсроченные вознаграждения с теоретическими гарантиями конвергенции. Для практических задач с пространствами состояний большой размерности мы дополнительно вводим правило HC-декомпозиции Q-функции в нашей структуре, что естественным образом приводит к схеме аппроксимации, которая помогает повысить эффективность и стабильность обучения. Наконец, мы проводим обширные эксперименты, чтобы продемонстрировать превосходную производительность наших алгоритмов по сравнению с существующими работами и их вариантами.

5. Основанное на безопасном моделировании подкрепляющее обучение эковождению на подключенных и автоматизированных гибридных электромобилях (arXiv)

Автор:Чжаосюань Чжу, Никола Пиваро, Шобхит Гупта, Абхишек Гупта, Марчелло Канова

Выдержка:Подключенные и автоматизированные гибридные электромобили могут снизить расход топлива и время в пути в реальных условиях вождения. Проблема экологичного вождения направлена ​​на разработку профилей оптимальной скорости и энергопотребления на основе прогнозной информации от подключения и расширенных функций картирования. Недавно к проблеме эковождения было применено глубокое обучение с подкреплением (DRL). В то время как предыдущие исследования синтезируют симуляторы и DRL без моделей для сокращения онлайн-вычислений, в этой работе предлагается безопасный алгоритм обучения с подкреплением на основе моделей вне политики для проблемы эковождения. Преимущества по сравнению с существующей литературой в три раза. Во-первых, сочетание нестандартного обучения и использования модели, основанной на физике, повышает эффективность выборки. Во-вторых, обучение не требует какого-либо внешнего механизма вознаграждения за удовлетворение ограничений. В-третьих, реализуемость траектории гарантируется использованием безопасного множества, аппроксимируемого глубокими генеративными моделями. Производительность предлагаемого метода сравнивается с базовым контроллером, представляющим водителей-людей, ранее разработанной стратегией DRL без использования моделей и оптимальным решением, выжидающим и наблюдающим. В моделировании предложенный алгоритм приводит к политике с более высокой средней скоростью и лучшей экономией топлива по сравнению с агентом без модели. По сравнению с базовым контроллером изученная стратегия снижает расход топлива более чем на 21% при сохранении сопоставимой средней скорости.