Новое исследование, проведенное командой DeepMind и Swiss AI Lab IDSIA, предлагает использовать симметрии из обучения на основе обратного распространения, чтобы повысить возможности мета-обобщения мета-обучающихся «черного ящика».

Метаобучение с подкреплением (RL) — это метод, используемый для автоматического обнаружения новых алгоритмов RL на основе взаимодействий агентов с окружающей средой. Хотя подходы «черного ящика» в этой области относительно гибки, они изо всех сил пытаются найти алгоритмы RL, которые можно обобщить на новые среды.

В статье Введение симметрий в метаобучение методом черного ящика исследователи изучают роль симметрии в метаобобщении и показывают, что введение большего количества симметрий в мета-обучающихся черного ящика может улучшить их способность обобщать невидимое. пространства для действий и наблюдения, задачи и окружение.

Исследователи выделяют три ключевых симметрии, которые демонстрируют системы, основанные на обратном распространении: использование одного и того же изученного правила обучения во всех узлах нейронной сети; гибкость для работы с любыми входами, выходами и размерами архитектуры; и инвариантность к перестановкам входов и выходов (для плотных слоев). Они добавляют эти симметрии к существующему алгоритму метаобучения «черный ящик», чтобы улучшить его возможности обобщения.

Чтобы представить эти симметрии, исследователи адаптируют совместное метаобучение с переменными (VSML) (Kirsch and Schmidhuber, 2020) к настройке RL. VSML — это новый подход, который обобщает изученные правила обучения, быстрые веса и метаRNN, чтобы обеспечить реализацию обратного распространения исключительно в рекуррентной динамике RNN и изучение алгоритмов метаобучения для обучения с учителем с нуля.

Команда расширяет метод мета-обучения «черный ящик», демонстрирующий те же симметрии, до настройки мета-RL для создания симметричных обучающих агентов (SymLA) — гибкого алгоритма мета-обучения «черный ящик», менее подверженного переобучению.

В своем эмпирическом исследовании команда сравнила возможности обобщения предложенного SymLA с базовыми MetaRNN — сначала научилась учиться на бандитах у Wang et al. (2016), затем демонстрация обобщения для невидимых пространств действий и применение изученного алгоритма к бандитам с разным количеством рук во время метатеста (чего не могут сделать MetaRNN). Затем исследователи продемонстрировали, как эти симметрии могут улучшить обобщение невидимых сред, создав перестановки наблюдений и действий в классических контрольных тестах.

Команда резюмирует свои выводы из эмпирического исследования следующим образом:

  1. Мы продемонстрировали обобщение на различное количество рук в экспериментах с бандитами (невидимые области действия), переставленные наблюдения и действия без ухудшения производительности (невидимые области наблюдения).
  2. Мы наблюдали тенденцию алгоритма метаобучения RL узнавать о состояниях и связанных с ними вознаграждениях во время метатеста (невидимые задачи).
  3. Мы показали, что обнаруженное поведение при обучении также переносится между миром сетки и (невидимой) классической средой управления.

Статья Введение симметрии в метаобучение с подкреплением черного ящика находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.