Да, агенты обманули, но что это значит для системы?

OpenAI выпустил фантастический материал о некоторых результатах, полученных в многоагентном симуляторе в прятки, в котором несколько укрывателей и множество искателей играют в популярную детскую игру.

В симуляции были некоторые интересные аспекты, такие как инструменты (ящики, пандусы, стены), которые агенты могли использовать, чтобы помочь им в достижении своей цели - эффективного сокрытия / поиска. Однако более заметным результатом является то, что расширенное моделирование среды привело к эмерджентному поведению; то есть поведение, которое по своей сути является незапланированным или неожиданным.

Например, некоторые из ожидаемых действий заключаются в том, что скрывающиеся в конечном итоге научатся строить ограждение со стенами и / или ящиками, которые скрывают пандусы от ищущих. Таким образом, пандусы нельзя использовать для перехода через стены в построенный корпус сверху. Теперь, чего не ожидали разработчики среды (возникающее поведение), так это того, что искатели узнают, что они могут использовать пандус, чтобы забраться на верхнюю часть коробки, а затем использовать бегущее движение, чтобы по существу "перемещаться" по коробке в любом месте, где они пожелают. !

Используя этот метод, искатели нашли способ получить доступ к скрытым корпусам сверху, что не было предусмотрено разработчиками системы!

Искатели играли в систему.

Как вы думаете, что сделали скрывающие в ответ на такое поведение? Некоторые из вас могут подумать, что, поскольку искатели до некоторой степени узнали о неопределенном поведении системы, они могут отреагировать каким-то нелепым действием, поскольку теперь система находится в состоянии беспорядка.

Но подумай об этом. Система не находилась в каком-либо неизвестном состоянии.

Хотя это могло быть в состоянии, которое дизайнеры явно не намеревались создавать, агенты продолжали работать таким образом, который они считали оптимальным для своих желаемых результатов.

Таким образом, прятки научились парализовать способность искателей серфить в ящиках!

Они сделали это, используя заранее выделенное начальное время, в течение которого искатели замораживаются, чтобы заблокировать все ящики и пандусы. Затем они используют любое оставшееся время, чтобы быстро построить ограждение с подвижными стенками, а затем заблокировать стены. Таким образом, у искателей теперь, опять же, нет возможности попасть внутрь вольера (по крайней мере, такова мысль…). Хорошо сыграно, ребята.

Я думаю, что это интересно, но на другом уровне, чем фокусируется на большей части анализа OpenAI. Они действительно упоминают, что агенты узнают, как проложить себе путь к системе:

«[…] Агенты разрабатывают […] стратегии и контрстратегии, некоторые из которых, мы не знали, поддерживается нашей средой»

Однако затем они погружаются в детали только о сценариях, которые узнали агенты, и полностью игнорируют сами недостатки дизайна среды. Я думаю, что последнее - более интересное явление! Я хотел бы перевернуть анализ с ног на голову - давайте теперь сохраним дизайн агентов постоянным и изменим структуру состояния среды и систему вознаграждения. Проанализируйте, как разные системы стимулов / ответов побуждают разные агентские стратегии. Область обучения с подкреплением прогрессирует замечательно, особенно в последние годы. Всего за несколько десятилетий мы прошли путь от решателей шашек до чемпиона по Go - наше моделирование агентов становится чертовски хорошим. А как насчет нашего многоагентного моделирования среды?

Проектирование мультиагентной среды

OpenAI определенно подумал об этом. Согласно их последнему абзацу,

Создание среды - непростая задача, и довольно часто агенты находят способ непреднамеренно использовать среду, которую вы создаете, или физический движок.

В отличной статье о дизайне функции вознаграждения, написанной @BonsaiAI на Medium, упоминается, что вы получаете то, что стимулируете, а не [обязательно] то, что намереваетесь. Это прекрасно резюмирует неотъемлемую дилемму при разработке системы вознаграждения за определенный результат. У вас наверняка есть мысленное представление о том, как ваша система стимулов приведет к тому, что система в целом достигнет желаемого состояния (я), но учли ли вы все мельчайшие способы, которыми ваша система может иметь некоторые трещины? Очевидно, это легче сказать, чем сделать. Это расхождение между намерением и результатом легко увидеть в нашей повседневной жизни, профессионально или нет:

  • инженеры-программисты намерены превратить задокументированные спецификации в функциональное программное обеспечение, которое точно воспроизводит задокументированные изменения.
  • Руководители компании намерены выплачивать сотрудникам соответствующую компенсацию в зависимости от того, какую ценность они приносят компании в целом.
  • Менеджеры спортивных команд намерены применять планы игр и расстановки игроков, которые принесут победу каждой последующей команде соперника.
  • так далее…

Непоколебимая и краткая истина для всех этих ситуаций состоит в том, что система ведет себя в точности так, как она задумана; нет непредвиденных последствий, только непредвиденные.

Чтобы прояснить эту идею, давайте продолжим сценарий компенсации. Предположим, что есть сотрудники в середине корпоративной иерархии, которые недовольны своим вознаграждением и не согласны с общим дизайном структуры вознаграждения (предположим, что структура хорошо известна в организации). Утверждения, которые могут сделать эти сотрудники, будут выглядеть примерно так: «эта система не работает» или «то, что здесь происходит, неправильно». Однако в этих обстоятельствах нельзя сказать (если предположить, что проектировщик сострадательный и справедливый) «эта система не делает то, для чего она предназначена».

Конечно, это является! Он делает именно то, что ему предписано! Если он должен делать что-то отличное от того, что есть сейчас, то его следует изменить как таковое. Возможно, мы предполагали, что система будет делать что-то одно, но это может быть, а может и не быть окончательным проектом. Однако независимо от намерения происходящее является идеальным воспроизведением выбранной системы.

Новый рубеж

Я рад, что новые теории будут развиваться вокруг эффективного проектирования систем экологического стимулирования, особенно в многоагентных сценариях. Применение подобной теории разбросано в нашей повседневной жизни и даже входит в число самых важных вопросов, на которые мы стремимся ответить в отношении жизни друг с другом. Вот некоторые примеры:

  • как нам лучше всего управлять собой и другими? [¹]
  • как лучше всего организовать то, как мы определяем ценности и обмениваемся друг с другом ценностями?
  • как лучше всего сотрудничать друг с другом для создания общего конечного продукта или творения?

Достаточно взять один или два из этих примеров, чтобы получить для этого достаточную мотивацию. И это здорово ... потому что эта область исследований в некоторых отношениях только начинается. Например, я полагаю, что существует множество исторических публикаций по системному анализу таких вещей, как правительства, экономические системы и управленческие иерархии. Однако вскоре все эти приоритеты будут объединены с последними достижениями в области многоагентного RL. Важные сходства и различия между этими семействами теорий потенциально могут привести к взрывному росту знаний и приложений в областях, связанных как с человеческими системами, так и с компьютерно-агентными системами.

Заключение

В системы всегда будут играть, независимо от того, являются ли агенты людьми или цифровыми.

Что вы думаете об эффективных способах предотвращения / обнаружения / борьбы с эксплуатацией систем стимулирования?

Какие интересные «вневременные» академические работы вы знаете, в которых анализируются системы человек / агент в целом?

Как насчет того же для дизайна вознаграждения в многоагентном RL?

Какие еще приложения вы здесь видите, которых я не касался?

[¹]: я с нетерпением жду того дня, когда предлагаемую политику кандидата на выборах можно будет оценить с помощью моделирования, что сделает бесполезным цирк теледебатов.