Децентрализованное многоагентное обучение с подкреплением и теория игр

Некоторые дилеммы теории игр, такие как знаменитый парадокс Брэсса, имеют глубокое влияние на многоагентное обучение с подкреплением.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 80 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире искусственного интеллекта. Нам доверяют более 85 000… thesequence.substack.com

На протяжении всей истории люди построили множество систем, требующих как автономных действий, так и скоординированного взаимодействия между их участниками. Транспортные сети, интеллектуальные сети или фондовые рынки являются примерами этих систем, которые стали основополагающими столпами наших обществ. Существенной характеристикой этих систем является то, что они требуют, чтобы их участники выполняли автономные задачи, влияние которых проявляется в общей среде с другими участниками. Воссоздать этот тип динамики в агентах искусственного интеллекта (ИИ) чрезвычайно сложно. Одна из этих проблем основана на балансировании индивидуальных интересов агентов ИИ с интересами всей группы. В недавнем документе от компании SecondMind, занимающейся разработкой решений для искусственного интеллекта, подробно описывается модель стимулов для внедрения многоагентных систем искусственного интеллекта.

Исследование Prowler сосредоточено на дисциплине глубокого обучения, известной как многоагентное обучение с подкреплением (MARL), которая стала самой современной в реализации автономных многоагентных самообучающихся систем.

Децентрализованный MARL

В экосистеме глубокого обучения многоагентное обучение с подкреплением (MARL) - это область, в которой основное внимание уделяется реализации автономных самообучающихся систем с несколькими агентами. Концептуально многоагентное обучение с подкреплением (MARL) - это дисциплина глубокого обучения, которая фокусируется на моделях, включающих несколько агентов, которые обучаются, динамически взаимодействуя со своей средой. В то время как в сценариях обучения с подкреплением с одним агентом состояние среды изменяется исключительно в результате действий агента, в сценариях MARL на среду действуют все агенты. С этой точки зрения, если мы думаем о среде MARL как о кортеже {X1-A1, X2-A2… .Xn-An}, где Xm - любой заданный агент, а Am - любое заданное действие, то новое состояние среды - это результат набора объединенных действий, определенных как A1xA2x… .An. Другими словами, сложность сценариев MARL возрастает с увеличением количества агентов в среде.

Хотя системы MARL по своей сути распределены, мы все же можем определить два основных типа архитектуры: централизованную и децентрализованную. Централизованные модели MARL полагались на контролирующий орган для управления вознаграждением для каждого из агентов. Этот тип архитектуры проще в реализации и относительно тривиален для координации целей между различными агентами, но он требует больших вычислительных затрат для работы в масштабе и, что наиболее важно, препятствует автономии. В конце концов, если вознаграждения агента контролируются централизованным органом, мы не можем утверждать, что агент автономен, не так ли? 😉 Это ограничение централизованных моделей MARL ставит их в прямое противоречие с системами, в которых агенты мотивированы действовать автономно. Подумайте о фондовых рынках, на которых трейдеры мотивированы индивидуальной выгодой, но при этом должны помнить о риске контрагента. Этот тип архитектуры лучше подходит для децентрализованных моделей MARL, в которых агенты действуют автономно, а координация происходит на основе стимулов.

Сценарии MARL пользовались своей долей успеха в последние несколько месяцев благодаря мощным источникам искусственного интеллекта, таким как OpenAI создает систему, которая может превзойти Dota2 и DeepMind делает то же самое в игре Quake III. Однако в обоих сценариях среда MARL задействовала лишь небольшое количество агентов. До сих пор методы MARL не использовались в сценариях с участием большого количества агентов. По мере увеличения числа агентов в системе MARL возрастает сложность координации между ними. С этой точки зрения создание модели стимулов для крупномасштабных систем MARL остается одной из самых больших проблем при реализации этих новых архитектур.

Парадоксы Брэсса и равновесия Нэша

Способ проиллюстрировать проблему моделирования стимулов в системах MARL можно объяснить парадоксом, описанным немецким математиком Дитрихом Браесом в 1968 году. На примере перегруженных транспортных сетей Брес объяснил, что, как это ни парадоксально, добавление дороги к дорожной сети может препятствовать его потоку (например, время в пути каждого водителя); Аналогичным образом, закрытие дорог потенциально может сократить время в пути. Официальная формулировка парадокса такова:

«Для каждой точки дорожной сети задано количество автомобилей, отправляющихся от нее, и пункт назначения. В этих условиях хочется оценить распределение транспортного потока. Будет ли одна улица предпочтительнее другой, зависит не только от качества дороги, но и от плотности потока. Если каждый водитель выберет наиболее благоприятный для него путь, время работы не должно быть минимальным. Кроме того, на примере показано, что расширение дорожной сети может вызвать перераспределение трафика, что приведет к увеличению времени автономной работы ».

Парадокс Брэса, кажется, бросает вызов золотому стандарту многоагентных систем: равновесию по Нэшу. Вспомните фильм 2001 года Прекрасный разум, в котором Рассел Кроу объяснил основы Равновесия Нэша на живописном примере друзей в баре, пытающихся заинтересовать привлекательную женщину:

Если мы все пойдем за блондинкой и заблокируем друг друга, ни один из нас не добьется ее. Итак, мы идем за ее друзьями, но все они будут нас холодно, потому что никто не любит быть вторым. Но что, если никто из нас не выберет блондинку? Мы не будем мешать друг другу и не будем оскорблять других девушек. Это единственный способ победить. - Прекрасный разум (2001)

Что будет, если мы добавим в этот сценарий вторую красивую блондинку. Теоретически это должна быть оптимизация, поскольку теперь у группы больше возможностей. Однако, если вторая блондинка будет более привлекательной, чем исходная, это может привести к тому, что все участники будут соревноваться друг с другом еще более агрессивно, что приведет к еще большим задержкам (что бы это ни значило в этом сценарии 😉). Это хрестоматийный пример парадокса Брэса, который возникает из-за того, что равновесие по Нэшу возникает, когда агенты оптимально реагируют друг на друга, что не всегда имеет место в многоагентных системах реального мира.

Парадокс Брэса невероятно актуален для архитектур MARL, поскольку любая оптимизация нейронной сети может повлиять на то, как интеллектуальные агенты реагируют на нее. С этой точки зрения системы MARL должны полагаться на тяготение к состояниям, в которых небольшие изменения в стимулах могут привести к непропорционально положительным результатам.

Умные стимулы

Prowler’s решил проблему оптимизации стимулов в архитектурах MARL, используя новый подход, который разделяет проблему на две части. Одна часть вычисляет политики наилучшего реагирования агентов с заданным набором функций вознаграждения. Другая часть находит лучший набор модификаций функций вознаграждения (или стимулов) с учетом совместной реакции агентов. Этот подход разбивает проблему таким образом, чтобы децентрализовать вычисления, поскольку агенты сами вычисляют свои политики наилучшего реагирования. Он включает в себя многоагентное обучение с подкреплением для вычисления равновесия по Нэшу и байесовскую оптимизацию для вычисления оптимального стимула в смоделированной среде.

В архитектуре Prowler используется как MARL, так и байесовская оптимизация в очень умном ансамбле для оптимизации стимулов в сети агентов.

MARL используется для моделирования действий агентов и создания равновесного поведения по Нэшу агентами для заданного выбора параметра метаагентом.
Байесовская оптимизация используется для выбора параметров игры, которые приводят к более желательным результатам. Байесовские оптимизации находят лучшую модель на основе случайности, которая соответствует динамике системы.

Интеллектуальные модели стимулов Prowler основаны на том, что разработчик стимулов выбирает функцию вознаграждения в моделируемой игре, в которую играют агенты, которая моделирует совместное поведение агентов. Задача разработчика стимулов - изменить набор функций вознаграждения агента для вспомогательной игры, которая вызывает поведение, которое максимизирует производительность системы. Используя обратную связь от смоделированной вспомогательной игры в ответ на изменения функций вознаграждения агентов, разработчик стимулов может точно вычислить модификации вознаграждений агентов, которые создают желаемое равновесие между корыстолюбивыми агентами реальной игры. Смоделированная среда устраняет необходимость в дорогостоящем сборе данных обратной связи из реальных сред, обеспечивая при этом соответствие сгенерированного поведения агента реальным результатам.

Умные стимулы в действии

Prowler применил свои умные методы стимулирования к нескольким интересным проблемам MARL. В одном сценарии модель MARL пытается распределить 2000 эгоистичных агентов, каждый из которых стремится найти себя в желаемых точках пространства на протяжении некоторого временного горизонта. Желательность региона меняется со временем и уменьшается с количеством агентов, находящихся в этом районе. Например, рассмотрим сценарий, в котором агенты являются водителями такси в автопарке, тогда каждый водитель (и их коллеги) могут собираться вокруг футбольного стадиона, когда они знают, что игра подходит к концу и болельщикам нужно поднять домой. Хотя такое поведение может принести пользу некоторым водителям, оно ведет к заторам на дорогах и приведет к тому, что другие точки города останутся без точного покрытия дорожного движения.

Используя интеллектуальную модель стимулирования, разработчик стимулов вводит модификатор вознаграждения, чтобы побудить агентов принять желаемое распределение. В результате 2000 водителей распределились оптимальным образом, максимально увеличив охват территории.

Системы MARL - одна из самых интересных областей исследований в области глубокого обучения. По мере продвижения этих архитектур к децентрализации потребность в надежных моделях стимулов станет более актуальной. Такие усилия, как умные стимулы Prowler, определенно являются шагом в правильном направлении.