Еженедельный обзор статей по обучению с подкреплением №1

Каждый понедельник я представляю 4 публикации из моей области исследований. Давай обсудим их!

[← Предыдущий отзыв] [Следующий отзыв →]

Документ 1: Обучение полету - тренажерный зал с физикой PyBullet для обучения с подкреплением многоагентного управления квадрокоптером

[Бумага] - Панерати Дж. И др.

Довольно часто можно увидеть роботизированные среды, содержащие роботизированные руки или навигационных роботов. Но пробовали ли вы когда-нибудь свои алгоритмы обучения на дронах? Именно это и предлагают авторы этой статьи: тренажерный зал OpenAI с открытым исходным кодом, основанный на PyBullet, для решения различных задач с участием одного или нескольких квадрикоптеров.

Обучение с подкреплением требует большого количества данных. Вот почему роботизированная среда в значительной степени упрощена. Это упрощение позволяет собрать достаточно данных для правильного изучения политики. Но это происходит за счет реалистичности симуляции. По этой причине большинство роботизированных сред не подходят для реального развертывания изученных политик. Авторы постарались сделать симуляцию максимально приближенной к реальности, смоделировав динамическое поведение квадрикоптеров, камеры, которые они несут, столкновения и аэродинамические эффекты.

Эти среды позволяют тренироваться по большому количеству задач: динамическое управление скоростью, стабилизация и т. Д. Но что я считаю наиболее интересным, так это интерфейс для многоагентного обучения с подкреплением (здесь мы говорим о роях дронов!).

Что касается производительности, она сильно варьируется в зависимости от того, хотите ли вы имитировать видение дронов или нет. Если мы хотим смоделировать видение, можно смоделировать среду из 5 дронов с коэффициентом реального времени 2,5. Если мы хотим моделировать без видения, можно смоделировать одновременно 4 среды 80 дронов, сохраняя коэффициент реального времени 0,8 (тесты проводились на ПК с процессором Intel i7–8850H и графической картой Nvidia Quadro P2000).

С нетерпением жду следующих публикаций, в которых будут представлены результаты, полученные на реальных дронах!

Документ 2: Адаптивное исследование без вознаграждения

[Бумага] - Кауфманн Э. и др.

Помните, когда вы были ребенком, вам говорили, что

«Обучение с подкреплением - это обучение тому, что делать - как сопоставить ситуации с действиями - чтобы максимизировать числовой сигнал вознаграждения» - Саттон, Р.С., и Барто, А.Г. (2018). Обучение с подкреплением: введение. Пресса Массачусетского технологического института

Что, если я скажу вам, что это не всегда так. Что, если я скажу вам, что некоторая работа предполагает, что часть обучения может быть выполнена без необходимости вознаграждения. Задача этой части исследования состоит в том, чтобы максимально подробно изучить окружающую среду с минимальным количеством взаимодействий. Это, вероятно, напоминает вам о работе Верхней границы уверенности (UCB), где количественно оценивается знание агента об окружающей среде. Таким образом, агент поощряет действия, результат которых мы меньше всего знаем (см. UCB from Agrawal (1995)).

Вернемся к делу. Авторы взялись за исследование без вознаграждения. Их алгоритм называется обучением с подкреплением без вознаграждения (RF-UCRL). Интересно то, что они смогли ограничить количество эпизодов, необходимых для получения достаточно большого набора данных о взаимодействии, чтобы позволить изучить любую функцию вознаграждения. Вот итоговое уравнение.

Где

N_e ( δ , ε ) - количество эпизодов, необходимых для вывода ε-приближения оптимальной политики с вероятностью 1 - δ,
S - количество состояний,
H горизонт (максимальная длина эпизода)
A количество действий

Я избавляю вас от расчетов, но мне интересно, что авторы смогли формально продемонстрировать этот результат математически. Это редкий подход в машинном обучении, когда мы с удовольствием предлагаем и наблюдаем «работает» или «не работает».

Вы могли заметить (что касается алгоритмов на основе UCB), что все эти результаты действительны для дискретных конечных пространств наблюдения и действий. Если возможно дискретизировать пространство действий, это будет менее просто для пространства наблюдения.

Я признаю, что впервые вижу такой подход к исследованию, который остается актуальным для любой функции вознаграждения. Есть еще много чего сказать, спасибо за эту замечательную публикацию.

Документ 3: Арена искусственного интеллекта: структура для изучения распределенного многоагентного подкрепления

[Бумага] - Стейли Э. и др.

Авторы этой статьи подготовили работу, которая должна стать поворотным моментом в многоагентном обучении с подкреплением. Они расширили интерфейс тренажерного зала OpenAI, который мы все знаем, чтобы сделать его намного более гибким, а также, на мой взгляд, расширили понятие многоагентного обучения с подкреплением. Вот неполный список того, что позволяет их расширение:

Природа агентов может быть разной, у каждого агента может быть своя цель, своя политика, собственный алгоритм обучения, собственное пространство действий и пространство наблюдения. Дело не в том, чтобы дать ограниченное наблюдение определенному агенту. Сам характер наблюдений и действий может отличаться. Рассмотрим конкретный пример: у вас может быть дрон (привет, статья 1), который будет обрабатывать изображения, и манипулятор, который будет обрабатывать положения суставов. Изученные политики могут использоваться полностью или частично в среде и даже в нескольких параллельных средах. Поэтому мы можем рассмотреть алгоритмы параллельного обучения (например, A3C), для которых рабочие могут быть разделены между этими различными средами.

Следует отметить, что эта структура была разработана для обеспечения высокой степени распараллеливания за счет прямого управления стандартом MPI. Это гарантирует, что каждая рабочая политика и каждая среда имеют свой собственный процесс.

Настоящая добавленная стоимость этой работы заключается в том, что с помощью нескольких строк кода можно определить довольно сложные среды. Посмотрите этот пример из публикации.

Я считаю, что название «арена» выбрано довольно удачно в том смысле, что среда не содержит цели сама по себе, но должна рассматриваться как общее пространство, в котором могут взаимодействовать несколько разнородных агентов. Я очень впечатлен их работой, поэтому приглашаю вас посмотреть их публикации и их код. Я сама провожу свои первые тренировки.

Документ 4: Увеличение изображения - это все, что вам нужно: упорядочение обучения с глубоким подкреплением с помощью пикселей

[Бумага] - Костриков И., Ярац Д. и др.

Взаимодействие с окружающей средой стоит дорого. Поэтому количество траекторий ограничено. Один из методов искусственного увеличения количества взаимодействий - изучить модель среды и взаимодействовать с этой изученной средой. Это обучение на основе моделей. Этот метод привлекателен, но на практике некоторые среды не могут быть легко изучены. Поэтому мы используем обучение без моделей. Как мы можем увеличить количество взаимодействий, если мы учимся без моделей? В этой статье авторы предлагают метод, который они заимствовали у наших собратьев по компьютерному зрению, который называется увеличением данных. Увеличение данных заключается в увеличении набора данных изображения путем добавления искаженных или зашумленных версий изображений, составляющих его.

Удивительно, но без необходимости адаптации алгоритмов, не связанных с моделями, увеличение данных позволяет значительно улучшить результаты. Вот результаты, полученные в трех средах:

DrQ [K = 1, M = 1] относится к SAC, дополненному случайными сдвигами. Вы можете видеть, что, применяя простое дополнение данных, эффективность обучения значительно увеличивается.

Второй вклад этой публикации - это регуляризация, которую они предлагают для дополненных данных. Я позволяю вам проконсультироваться с публикацией для получения более подробной информации. Главное, что эта регуляризация позволяет немного улучшить характеристики (DrQ [K = 2, M = 1,2] на графике).

Бонусная статья: Контроль на человеческом уровне посредством глубокого обучения с подкреплением

[Paper] в Nature (2015) - Мних В., Кавукчуоглу К., Сильвер Д. и др.

На этой неделе я хочу написать о том, что нужно знать. Это публикация, которая представила алгоритм Deep Q-Network (DQN). Мощность этого алгоритма была продемонстрирована на 49 играх для Atari 2600. Для большинства игр результаты намного превосходят лучшие современные алгоритмы.

Давайте вкратце вернемся к DQN. Вот ключевые моменты, которые отличают его от табличных методов. (1) функция Q-значения аппроксимируется нейронной сетью (сверточная). Этот момент важен, поскольку он позволяет обобщать состояния, которые еще не встречались, в отличие от табличных методов; (2) исследование основано на эпсилон-жадной политике. Агент выполняет случайное действие с вероятностью эпсилон; (3) переходы сохраняются в памяти (D), и нейронная сеть обучается предсказывать функцию значения, связанную с парой (состояние, действие). Таким образом, хорошо известный алгоритм:

Приятно осознавать, что этой публикации всего шесть лет. С тех пор был достигнут такой большой прогресс. Исследования продвигаются быстро, новые замечательные результаты появляются регулярно, и данная публикация является тому подтверждением.

Я с большим удовольствием представил вам свои пять чтений за неделю. Надеюсь, вам понравится это второе издание. Я с нетерпением жду ваших отзывов.
Чтобы прочитать мои обзоры за воскресный вечер, посетите мой блог: https://qgallouedec.github.io