Новый метод позволяет избежать отвлекающих факторов в многозадачных моделях обучения с подкреплением.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Обучение с подкреплением (RL) было в центре некоторых из самых известных вех в области искусственного интеллекта (AI) за последние несколько лет. От таких систем, как AlphaGo, до недавнего прогресса в многопользовательских играх, таких как OpenAI Five или DeepMind’s Quake III, RL продемонстрировала невероятный прогресс в овладении сложными предметами знаний. Несмотря на впечатляющие результаты, наиболее широко распространенные алгоритмы RL ориентированы на изучение одной задачи и создают множество проблем при использовании в многозадачных средах. Три года назад исследователи из дочерней компании Alphabet DeepMind опубликовали статью, в которой предложили новый метод под названием PopArt для улучшения RL в многозадачных средах.

Многозадачное обучение с подкреплением

Есть много способов классифицировать алгоритмы обучения с подкреплением (RL) в зависимости от их архитектуры. Очень простая таксономия, которую я считаю особенно полезной, - это классификация моделей RL на основе количества задач и количества агентов, задействованных в среде. Используя эту схему, мы можем перейти от простых однозадачных / одноагентных моделей к сложным многозадачным / многоагентным архитектурам, которые напоминают многие виды когнитивной деятельности человека.

Вы можете думать о многозадачном обучении с подкреплением (MTRL) как о ребенке каратэ из RL. В фильме «Малыш-карате» (1984) сенсей г-н Мияги обучает ребенка-карате, казалось бы, несвязанных задач, таких как шлифование пола и натирание машины воском. Оглядываясь назад, оказывается, что они вооружают его бесценными навыками, необходимыми для изучения карате. Точно так же роль MTRL действует в среде, в которой агентам необходимо изучить группу, казалось бы, несвязанных задач для достижения конечных целей.

Параллельное многозадачное обучение

Среди различных вариаций моделей MTRL, которые сейчас исследуются исследователями ИИ, есть группа, известная как параллельное многозадачное обучение, которая продемонстрировала огромный прогресс, позволяя единой системе ИИ справляться с группой разнообразных задач. Команда DeepMind была в авангарде параллельных моделей многозадачного обучения и ранее в этом году выпустила эталонную архитектуру под названием Взвешенная по важности архитектура« субъект-учащийся » (IMPALA). Вдохновленный другой популярной архитектурой обучения с подкреплением под названием A3C, IMPALA использует топологию различных участников и учащихся, которые могут сотрудничать для накопления знаний в разных областях. Традиционно модели обучения с глубоким подкреплением используют архитектуру, основанную на одном учащемся в сочетании с несколькими участниками. В этой модели каждый субъект генерирует траектории и отправляет их через очередь ученику. Перед тем, как начать следующую траекторию, субъект получает от учащегося самые последние параметры политики. IMPALA использует архитектуру, которая собирает опыт, который передается центральному учащемуся, который вычисляет градиенты, в результате чего получается модель с полностью независимыми участниками и учащимися. Эта простая архитектура позволяет ускорить обучение учащихся с помощью графических процессоров, а участников можно легко распределить по множеству машин.

Отвлечение: самая большая проблема многозадачного обучения с подкреплением

Архитектура IMPALA стала важным шагом на пути к реализации многозадачных систем обучения с подкреплением (MTRL). Однако даже такие архитектуры, как IMPALA, уязвимы для того, что я называю «дилеммой отвлечения». Общая проблема многозадачного обучения заключается в том, что необходимо найти баланс между потребностями множества задач, конкурирующих за ограниченные ресурсы одной системы обучения. Многие алгоритмы обучения могут отвлекаться на определенные задачи из набора задач, которые нужно решить.

В общем, дилемма отвлечения представляет собой потребность в системе MTRL, чтобы сбалансировать вознаграждение за выполнение индивидуальных задач с конечной целью достижения обобщения. На разных этапах жизненного цикла системы MTRL агенты будут сталкиваться с задачами, которые кажутся более важными для процесса обучения, например, из-за плотности или величины вознаграждения за выполнение задачи. Это заставляет алгоритм сосредотачиваться на этих важных задачах за счет общности.

Знакомство с PopArt от DeepMind

Для решения дилеммы отвлечения DeepMind предлагает метод под названием PopArt, основанный на оригинальной архитектуре IMPALA. PopArt расширяет исходную модель IMPALA, адаптируя вклад каждой задачи в обновления агента, так что все агенты оказывают пропорциональное влияние на динамику обучения. Магия PopArt заключается в настройке весов нейронной сети на основе целевого вывода всех задач. PopArt работает, оценивая среднее значение и разброс конечных целей, таких как счет игры, по всем задачам. Затем он использует эту статистику для нормализации целей, прежде чем они будут использоваться для обновления весов сети. Использование нормализованных целей делает обучение более стабильным и устойчивым к изменениям масштаба и сдвигу. Для получения точных оценок - например, ожидаемых будущих оценок - выходные данные сети могут быть снова масштабированы до истинного целевого диапазона, инвертируя процесс нормализации.

Модель PopArt основана на архитектуре IMPALA, которая объединяет различные сверточные слои с другими методами, такими как встраивание слов и сети долгосрочной краткосрочной памяти (LSTM).

В IMPALA агент распределяется по нескольким потокам, процессам или машинам. Несколько участников работают на ЦП, генерируя развертывание опыта, состоящее из фиксированного числа взаимодействий (100 в наших экспериментах) с их собственной копией среды, а затем помещают развертывания в общую очередь. Актеры получают последнюю копию параметров сети от учащегося перед каждым развертыванием. Нововведение PopArt заключается в обновлении сетевой политики на основе результатов каждой отдельной задачи.

PopArt в действии

Команда DeepMind протестировала PopArt в различных игровых сценариях. Одним из сценариев, который особенно ярко продемонстрировал преимущества PopArt, была игра Pac-Man. Традиционные алгоритмы обучения с подкреплением используют отсечение вознаграждения как механизм для обработки различной шкалы вознаграждений. Хотя отсечение упрощает обучение, оно также меняет цель агента. Например, в «Мисс Пак-Ман» цель состоит в том, чтобы собрать гранулы, каждая из которых стоит 10 очков, и съесть призраков стоимостью от 200 до 1600 очков. С обрезанными наградами для агента нет очевидной разницы между поеданием гранулы или поеданием призрака, и в результате агенты едят только гранулы и никогда не преследуют призраков. PopArt, адаптивная нормализация кажется более эффективным способом стабилизации обучения. Команда DeepMind использовала PopArt в агентах Pac-Man RL, и результаты были весьма впечатляющими: агент преследовал призраков и набрал более высокий балл, как показано в следующем видео.

PopArt постоянно демонстрирует улучшения по сравнению с другими многозадачными архитектурами обучения с подкреплением при тестировании на наборе игр Atari. Как показано на диаграмме ниже, PopArt значительно улучшил производительность агента по сравнению с базовым агентом без PopArt. Как с обрезанными, так и с невырезанными наградами средний балл агента PopArt по играм был выше среднего для людей.

Многозадачное обучение с подкреплением (MTRL) - одна из самых захватывающих областей в области глубокого обучения. Как и люди, агенты MTRL могут отвлекаться, сосредотачиваясь на неправильных задачах. Такие методы, как PopArt, которые сводят к минимуму отвлекающие факторы и стабилизируют обучение, необходимы для массового внедрения методов MTRL.