Научитесь планировать общение между кооперативными агентами

Новая архитектура для планирования связи в многоагентных средах

Вступление

В многоагентных средах один из способов ускорить эффект координации - дать возможность нескольким агентам взаимодействовать друг с другом распределенным образом и вести себя как группа. В этой статье мы обсуждаем структуру многоагентного обучения с подкреплением, называемую SchedNet, предложенную Кимом и др. В ICLR 2019, в которой агенты учатся планировать общение, как кодировать сообщения и как действовать в ответ на полученные сообщения.

Настройка проблемы

Мы рассматриваем многоагентные сценарии, в которых текущая задача носит кооперативный характер, а агенты находятся в частично наблюдаемой среде. Мы формулируем такие сценарии в виде задачи последовательного принятия решений несколькими агентами, так что все агенты разделяют цель максимизации одной и той же дисконтированной суммы вознаграждений. Поскольку мы полагаемся на метод планирования связи между агентами, мы накладываем два ограничения на доступ к среде:

Ограничение пропускной способности: агент может каждый раз передавать на носитель сообщение только L битами.
Ограничение конкуренции: агенты совместно используют среду связи, так что только K из n агентов могут транслировать свои сообщения.

Теперь мы формализуем MARL, используя DEC-POMDP (децентрализованный частично наблюдаемый марковский процесс принятия решений), обобщение MDP, позволяющее осуществлять распределенное управление несколькими агентами, которые могут быть неспособны наблюдать за глобальным состоянием. Мы описываем DEC-POMDP кортежем ‹S, A, r, P, 𝛺, O, 𝛾›, где:

s ∈ S - состояние среды, недоступное агентам.
aᵢ ∈ A и oᵢ ∈ 𝛺 - действие и наблюдение для агента i ∈ N
r: S ⨉ A ^ N → R - функция вознаграждения, доступная всем агентам.
P: S ⨉ A ^ N → S - функция перехода
O: S ⨉ N → 𝛺 - вероятность излучения / наблюдения
𝛾 обозначает коэффициент дисконтирования

SchedNet

Обзор

Прежде чем углубляться в детали, мы сначала кратко рассмотрим архитектуру (рисунок 1), чтобы получить общее представление о том, что здесь происходит. На каждом временном шаге каждый агент получает свое наблюдение и передает его в генератор весовых коэффициентов и кодировщик для получения значения веса w и сообщения m соответственно. . Все значения веса затем передаются в центральный планировщик, который определяет, какие сообщения агентов запланированы для широковещательной рассылки, с помощью вектора расписания c = [cᵢ] ₙ, cᵢ ∈ {0, 1}. центр сообщений объединяет все сообщения вместе с вектором расписания c, а затем рассылает выбранные сообщения всем агентам. Наконец, каждый агент предпринимает действия на основе этих сообщений и своих собственных наблюдений.

Как мы увидим дальше, SchedNet обучает все свои компоненты через критик, следуя структуре децентрализованного обучения и распределенного выполнения.

Генератор веса

Начнем с генератора веса. Генератор веса принимает наблюдение в качестве входных данных и выводит значение веса, которое затем используется планировщиком для планирования сообщений. Мы обучаем генератор веса через критика, максимизируя Q (s, w), функцию ценности действия. Чтобы лучше понять, что здесь происходит, давайте возьмем генератор веса как детерминированную политическую сеть и поглотим все остальные части, кроме критика, в окружающую среду. Затем генератор веса и критик сформируют структуру DDPG. В этой настройке генератор веса отвечает за ответ на вопрос: «Какой вес, который я генерирую, может принести максимальную пользу окружающей среде с этого момента?». В результате мы имеем следующую цель

Важно отличать s от o; s - это состояние среды, а o - наблюдение с точки зрения каждого агента.

Планировщик

Когда мы описывали постановку задачи, на процесс коммуникации накладывались два ограничения. Ограничение полосы пропускания L можно легко реализовать, ограничив размер сообщения m. Теперь мы сосредоточимся на наложении K на часть планирования.

Планировщик использует простой алгоритм на основе веса, называемый WSA (алгоритм планирования на основе веса), для выбора агента K. Рассмотрим два предложения из статьи

Лучшие (k): выбор k агентов с точки зрения их веса.
Softmax (k): вычисление значений softmax для каждого агента i на основе их значений веса, а затем случайный выбор k агентов в соответствии с к этим значениям softmax

Модуль WSA выводит вектор расписания c = [cᵢ] ₙ, cᵢ ∈ {0, 1}, где каждый cᵢ определяет, сообщение агента будет транслироваться или нет.

Кодировщик сообщений, центр сообщений и селектор действий

Кодировщик сообщений кодирует наблюдения для создания сообщения m. Центр сообщений объединяет все сообщения m и выбирает сообщения для широковещательной рассылки на основе c. Результирующее сообщение m ⊗ c представляет собой объединение всех выбранных сообщений. Например, если m = [000, 010, 111] и c = [101], последнее сообщение для трансляции: m ⊗ c = [000111]. Селектор действий каждого агента затем выбирает действие на основе этого сообщения и его наблюдения.

Мы обучаем кодировщики сообщений и селекторы действий с помощью алгоритма, основанного на политике, с функцией значения состояния V (s) в критике. Градиент его цели равен

где 𝜋 обозначает совокупную сеть кодировщика и селектора, а V обучается со следующей целью

Обсуждение

Две разные процедуры обучения?

Kim et al. обучите генераторы весов и селекторы действий, используя разные методы, но с одним и тем же источником данных. В частности, они обучают генераторы весовых коэффициентов с помощью детерминированного алгоритма градиента политики (метод вне политики), одновременно обучая селекторы действий с помощью алгоритма стохастического градиента политики (метод на основе политики). На практике это может быть проблематично, поскольку метод стохастического градиента политики может отличаться при обучении с данными вне политики. Официальная реализация решает эту проблему с помощью небольшого буфера воспроизведения переходов, который, однако, может ухудшить производительность алгоритма, соответствующего политике.

Мы могли бы обойти эту проблему, изменив параметры критика так, чтобы он принимал в качестве входных данных состояние s и действия a₁, a₂, … и выводил соответствующее Q -значение. Таким образом, мы обучаем обоих внеполитическим методам. Другой возможный способ - отделить процесс обучения от взаимодействия с окружающей средой, если кто-то настаивает на методах стохастического градиента политики. Обратите внимание, что недостаточно просто разделить обучение политике, поскольку обновление генератора весов может изменить распределение состояний среды.

использованная литература

Дэу Ким, Мун Сану, Hostallero Дэвид, Ван Чжу Кан, Ли Тэён, Сон Кёнхван и И Юнг. 2019. «Обучение планированию общения в многоагентном обучении с подкреплением». ICLR, 1–17.