Результаты пряток OpenAI, взгляд на системы

Да, агенты обманули, но что это значит для системы?

OpenAI выпустил фантастический материал о некоторых результатах, полученных в многоагентном симуляторе в прятки, в котором несколько укрывателей и множество искателей играют в популярную детскую игру.

В симуляции были некоторые интересные аспекты, такие как инструменты (ящики, пандусы, стены), которые агенты могли использовать, чтобы помочь им в достижении своей цели - эффективного сокрытия / поиска. Однако более заметным результатом является то, что расширенное моделирование среды привело к эмерджентному поведению; то есть поведение, которое по своей сути является незапланированным или неожиданным.

Например, некоторые из ожидаемых действий заключаются в том, что скрывающиеся в конечном итоге научатся строить ограждение со стенами и / или ящиками, которые скрывают пандусы от ищущих. Таким образом, пандусы нельзя использовать для перехода через стены в построенный корпус сверху. Теперь, чего не ожидали разработчики среды (возникающее поведение), так это того, что искатели узнают, что они могут использовать пандус, чтобы забраться на верхнюю часть коробки, а затем использовать бегущее движение, чтобы по существу "перемещаться" по коробке в любом месте, где они пожелают. !

Используя этот метод, искатели нашли способ получить доступ к скрытым корпусам сверху, что не было предусмотрено разработчиками системы!

Искатели играли в систему.

Как вы думаете, что сделали скрывающие в ответ на такое поведение? Некоторые из вас могут подумать, что, поскольку искатели до некоторой степени узнали о неопределенном поведении системы, они могут отреагировать каким-то нелепым действием, поскольку теперь система находится в состоянии беспорядка.

Но подумай об этом. Система не находилась в каком-либо неизвестном состоянии.

Хотя это могло быть в состоянии, которое дизайнеры явно не намеревались создавать, агенты продолжали работать таким образом, который они считали оптимальным для своих желаемых результатов.

Таким образом, прятки научились парализовать способность искателей серфить в ящиках!

Они сделали это, используя заранее выделенное начальное время, в течение которого искатели замораживаются, чтобы заблокировать все ящики и пандусы. Затем они используют любое оставшееся время, чтобы быстро построить ограждение с подвижными стенками, а затем заблокировать стены. Таким образом, у искателей теперь, опять же, нет возможности попасть внутрь вольера (по крайней мере, такова мысль…). Хорошо сыграно, ребята.

Я думаю, что это интересно, но на другом уровне, чем фокусируется на большей части анализа OpenAI. Они действительно упоминают, что агенты узнают, как проложить себе путь к системе:

«[…] Агенты разрабатывают […] стратегии и контрстратегии, некоторые из которых, мы не знали, поддерживается нашей средой»

Однако затем они погружаются в детали только о сценариях, которые узнали агенты, и полностью игнорируют сами недостатки дизайна среды. Я думаю, что последнее - более интересное явление! Я хотел бы перевернуть анализ с ног на голову - давайте теперь сохраним дизайн агентов постоянным и изменим структуру состояния среды и систему вознаграждения. Проанализируйте, как разные системы стимулов / ответов побуждают разные агентские стратегии. Область обучения с подкреплением прогрессирует замечательно, особенно в последние годы. Всего за несколько десятилетий мы прошли путь от решателей шашек до чемпиона по Go - наше моделирование агентов становится чертовски хорошим. А как насчет нашего многоагентного моделирования среды?

Проектирование мультиагентной среды

OpenAI определенно подумал об этом. Согласно их последнему абзацу,

Создание среды - непростая задача, и довольно часто агенты находят способ непреднамеренно использовать среду, которую вы создаете, или физический движок.

В отличной статье о дизайне функции вознаграждения, написанной @BonsaiAI на Medium, упоминается, что вы получаете то, что стимулируете, а не [обязательно] то, что намереваетесь. Это прекрасно резюмирует неотъемлемую дилемму при разработке системы вознаграждения за определенный результат. У вас наверняка есть мысленное представление о том, как ваша система стимулов приведет к тому, что система в целом достигнет желаемого состояния (я), но учли ли вы все мельчайшие способы, которыми ваша система может иметь некоторые трещины? Очевидно, это легче сказать, чем сделать. Это расхождение между намерением и результатом легко увидеть в нашей повседневной жизни, профессионально или нет:

инженеры-программисты намерены превратить задокументированные спецификации в функциональное программное обеспечение, которое точно воспроизводит задокументированные изменения.
Руководители компании намерены выплачивать сотрудникам соответствующую компенсацию в зависимости от того, какую ценность они приносят компании в целом.
Менеджеры спортивных команд намерены применять планы игр и расстановки игроков, которые принесут победу каждой последующей команде соперника.
так далее…

Непоколебимая и краткая истина для всех этих ситуаций состоит в том, что система ведет себя в точности так, как она задумана; нет непредвиденных последствий, только непредвиденные.

Чтобы прояснить эту идею, давайте продолжим сценарий компенсации. Предположим, что есть сотрудники в середине корпоративной иерархии, которые недовольны своим вознаграждением и не согласны с общим дизайном структуры вознаграждения (предположим, что структура хорошо известна в организации). Утверждения, которые могут сделать эти сотрудники, будут выглядеть примерно так: «эта система не работает» или «то, что здесь происходит, неправильно». Однако в этих обстоятельствах нельзя сказать (если предположить, что проектировщик сострадательный и справедливый) «эта система не делает то, для чего она предназначена».

Конечно, это является! Он делает именно то, что ему предписано! Если он должен делать что-то отличное от того, что есть сейчас, то его следует изменить как таковое. Возможно, мы предполагали, что система будет делать что-то одно, но это может быть, а может и не быть окончательным проектом. Однако независимо от намерения происходящее является идеальным воспроизведением выбранной системы.

Новый рубеж

Я рад, что новые теории будут развиваться вокруг эффективного проектирования систем экологического стимулирования, особенно в многоагентных сценариях. Применение подобной теории разбросано в нашей повседневной жизни и даже входит в число самых важных вопросов, на которые мы стремимся ответить в отношении жизни друг с другом. Вот некоторые примеры:

как нам лучше всего управлять собой и другими? [¹]
как лучше всего организовать то, как мы определяем ценности и обмениваемся друг с другом ценностями?
как лучше всего сотрудничать друг с другом для создания общего конечного продукта или творения?

Достаточно взять один или два из этих примеров, чтобы получить для этого достаточную мотивацию. И это здорово ... потому что эта область исследований в некоторых отношениях только начинается. Например, я полагаю, что существует множество исторических публикаций по системному анализу таких вещей, как правительства, экономические системы и управленческие иерархии. Однако вскоре все эти приоритеты будут объединены с последними достижениями в области многоагентного RL. Важные сходства и различия между этими семействами теорий потенциально могут привести к взрывному росту знаний и приложений в областях, связанных как с человеческими системами, так и с компьютерно-агентными системами.

Заключение

В системы всегда будут играть, независимо от того, являются ли агенты людьми или цифровыми.

Что вы думаете об эффективных способах предотвращения / обнаружения / борьбы с эксплуатацией систем стимулирования?

Какие интересные «вневременные» академические работы вы знаете, в которых анализируются системы человек / агент в целом?

Как насчет того же для дизайна вознаграждения в многоагентном RL?

Какие еще приложения вы здесь видите, которых я не касался?

[¹]: я с нетерпением жду того дня, когда предлагаемую политику кандидата на выборах можно будет оценить с помощью моделирования, что сделает бесполезным цирк теледебатов.

Результаты пряток OpenAI, взгляд на системы

Да, агенты обманули, но что это значит для системы?

Проектирование мультиагентной среды

Новый рубеж

Заключение

Вопросы по теме