Обзор документов по обучению с подкреплением № 13

Представляю 4 публикации из области моих исследований: обучение с подкреплением. Давайте обсудим это!

[ ← Предыдущий отзыв][Следующий отзыв →]

Документ 1: Освоение игр Atari с ограниченными данными

Йе, В., Лю, С., Курутах, Т., Аббил, П., и Гао, Ю. (2021). Освоение игр Atari с ограниченными данными. препринт arXiv arXiv:2111.00210.

EfficientZero — это название, данное авторами своему новому алгоритму обучения с подкреплением. Что отличает его от многих других современных алгоритмов? Давайте посмотрим прямо сейчас.

Начнем с того, что это алгоритм, основанный на видении. Обучение с подкреплением на основе видения чрезвычайно сложно, поскольку пространство для наблюдения огромно, а окружающая среда большую часть времени остается частично наблюдаемой. Во-вторых, авторы делают акцент здесь на офлайн-обучении, т.е. алгоритм использует уже собранные данные и не может взаимодействовать с окружающей средой. Наиболее распространенным тестом для тестирования алгоритмов на основе машинного зрения в автономном режиме является тест Atari 100k. Как следует из названия, это тест, содержащий 100 тысяч взаимодействий с играми Atari 2600, что соответствует 2 часам игры в режиме реального времени. Чтобы дать вам представление о порядках величин, скажем, что большинство алгоритмов онлайн-обучения с подкреплением в играх Atari используют несколько десятков или сотен миллионов взаимодействий. Мягко говоря, очень мало. Цель здесь состоит в том, чтобы узнать максимум вещей с очень небольшим количеством данных. Это называется эффективностью выборки.

Прежде чем мы перейдем к тому, как работает EfficientZero, давайте поговорим о результатах. Их метод достигает средней производительности человека 190,4% и медианной производительности 116,0% в тесте Atari 100k. Для сравнения, это производительность, которую DQN достигает с 500-кратным увеличением данных. В бенчмарке DMControl 100k (аналогичный бенчмарк, но для задач управления) их метод дает лучшие результаты, чем знаменитый алгоритм SAC, обучающийся на основе основных состояний истины (таким образом, не испытывая трудностей обучения на основе зрения). Мы можем определенно сказать, что их алгоритм эффективен по выборке.

Но тогда как работает этот алгоритм? Если имя EfficientZero звучит знакомо, это нормально. Это потому, что этот алгоритм — не что иное, как MuZero с тремя важными модификациями:

Во-первых, самоконтролируемая потеря согласованности. Вы должны знать, что MuZero использует «представление» среды, что позволяет ему генерировать состояние на основе наблюдения. Затем это состояние передается модели, а также впоследствии для прогнозирования следующего состояния. Ради непротиворечивости это следующее состояние, выведенное в момент времени t, должно соответствовать состоянию из представления в момент времени t+1. Учитывая это, авторы добавили потерю к обучению модели, которая измеряет расстояние между этими двумя состояниями: хорошо названную потерю согласованности с самоконтролем.

Во-вторых, сквозное прогнозирование префикса значения. Для этого я даю вам только интуицию. Во многих случаях можно предсказать, что определенное событие произойдет, не имея возможности точно предсказать, когда оно произойдет. Используя эту интуицию, авторы изменили форму значения, которое необходимо изучить, чтобы облегчить такого рода прогнозирование.

Наконец, Корректировка вне политики на основе модели. Для этого речь идет об исправлении расхождений, вызванных использованием данных, полученных со старыми политиками. Добавляя баланс между собранными данными и прогнозом модели, это расхождение можно ограничить.

Из-за результатов, которые он достигает, этот метод заслуживает изучения. На сегодняшний день это не с открытым исходным кодом, но должен быть в ближайшее время.

Документ 2: Ловкие манипуляции с помощью многозадачного обучения с учетом геометрии

Хуанг, В., Мордатч, И., Аббил, П., и Патхак, Д. (2021). Обобщение ловких манипуляций с помощью многозадачного обучения с учетом геометрии. препринт arXiv: 2111.03062.

Манипуляции в руках заключаются в обучении манипулированию объектами роботизированной рукой. Отправной точкой этой статьи является следующее простое наблюдение: агент, обученный манипулировать объектом, не обязательно знает, как манипулировать другим объектом. В большинстве статей о манипулировании руками очень немногие рискуют изменить объект манипулирования. Ну и что? Должны ли мы изучить политику, посвященную манипулированию всеми возможными объектами? Нет, и авторы этой статьи пролили свет на эту тему, предложив использовать единую политику для манипулирования 100 объектами разной формы.

Ключевым элементом этой статьи является то, что авторы называют «представлением объектов с учетом геометрии». Прежде всего, вы должны знать, что большую часть времени нам нравится использовать 6 координат для представления объекта: 3 для его положения и 3 для его ориентации. Это удобно, и это работает очень хорошо. Но это представление не фиксирует форму объекта. Итак, когда есть объекты разной формы, это работает гораздо хуже. Вот тут-то и появляется «представление объекта с учетом геометрии». Вместо представления объекта только его положением и ориентацией оно использует облако точек объекта. Это облако точек кодируется первой нейронной сетью для построения представления объекта. Конкретно, эта сеть обучена извлекать 2 вещи: класс объекта (что это за объект?) и его ориентацию. Именно это представление является входом сети политики. Затем политику можно обучить любым методом обучения с подкреплением (в статье используется DDPG).

После обучения они показывают, что эта политика может выполнять манипулирование 100 объектами в их наборе данных.
Они также показывают, что эта политика может распространяться на невидимые объекты разного размера и формы. Еще один интересный результат: при изучении политики таким способом кажется, что изученная политика работает лучше, чем политика, изученная с одним объектом (старый способ). Как вы думаете, почему это так?

Документ 3: Обзор обобщения в глубоком обучении с подкреплением

Кирк Р., Чжан А., Грефенштетт Э. и Рокташель Т. (2021). Обзор обобщения в глубоком обучении с подкреплением. препринт arXiv: 2111.09794.

Изучение обобщения в обучении с подкреплением — довольно молодая область. Он состоит в ответе на следующий вопрос: хорошо ли работает алгоритм обучения даже на данных, которых он никогда не видел? Пример: если я научу агента водить машину в Швейцарии, сможет ли он водить машину в Германии? Задача остается глобально той же, но дорожные знаки, скорее всего, немного изменятся, а также какие-то ограничения скорости или какие-то правила.

Изучение этого вопроса имеет решающее значение, особенно если мы хотим развернуть алгоритмы обучения с подкреплением в реальных сценариях. При этом окружающая среда постоянно развивается и чрезвычайно разнообразна. Процесс обучения неизбежно будет иметь очень мало разнообразия по сравнению с данными, которые фактически встречаются во время развертывания.

Определившись с этим, обратимся теперь к самой публикации. В этой публикации делается попытка установить общую основу для изучения обобщения в обучении с подкреплением. Он предлагает терминологию и формализм для будущей работы по этому вопросу. Я не буду вдаваться в подробности этой публикации, а скорее представлю семь выводов из ее заключения.

Следует рассмотреть возможность нулевого обучения. Это установка (хорошо известная в компьютерном зрении и немного менее изученная в обучении с подкреплением), в которой агент обучается в одной среде, но оценивается в другой. Агент не завершает свое обучение в этой новой среде, отсюда и термин «нулевой выстрел».
Заметим, что это не означает, что оптимальную политику следует считать фиксированной. Наоборот, надо считать изменение оптимальным. Это подразумевает непрерывное обучение, то есть обучение, которое продолжается во время развертывания. Это предмет целой области исследований: непрерывное обучение. Будущие системы обучения с подкреплением, скорее всего, будут развернуты в таких сценариях.
Исключительно среды процедурной генерации контента недостаточны для изучения обобщения. PCG — это метод создания среды, меняющейся от одного эпизода к другому. Чтобы понять, представьте себе робота, который должен научиться ориентироваться в комнате, которая меняет форму от одного эпизода к другому. Если этот метод кажется очень эффективным для того, чтобы заставить агента адаптироваться к большому количеству вариантов, то ГКП, работающие как черные ящики, тем не менее создают проблему: стратегию генерации окружения на этапе обучения и на этапе эксперимента изменить нельзя. Однако очень интересно изучить, например, как наш робот реагирует на стул, если он ни разу не сталкивался с ним на этапе обучения. Рекомендация авторов — вскрывать эти черные ящики для изучения таких сценариев.
Чтобы развернуть модель для реальных проблем, особое внимание необходимо уделить эффективности контекста. Термин контекст используется, когда динамика и вознаграждение среды зависят от скрытых статических параметров. Контекстная эффективность — это способность агента быстро обучаться при изменении этих параметров (тем самым изменяя динамику и вознаграждение).
Обобщение для задач офлайн-обучения нуждается в дальнейшем изучении. Офлайн-обучение заключается в обучении агента без возможности взаимодействия с окружающей средой. Данные фиксируются заранее и находятся в ограниченном количестве.
В реальных сценариях динамика и функция вознаграждения могут меняться во время обучения. Необходимо дополнительно изучить, как алгоритмы ведут себя в таких сценариях.
Поскольку симулятор не может идеально воспроизвести реальный мир, неизбежно существуют функции, которые меняются при развертывании модели в сценариях реального мира. Если мы сможем идентифицировать эти функции, их можно исключить из входных данных для обучения (например, цвет для задач, где цвет не имеет значения). Это пример индуктивного смещения. Когда проблемы обобщения сильны, эти предубеждения обобщения должны быть одинаково важны. Будущая работа должна быть более четкой в отношении этих индуктивных предубеждений путем конкретной оценки их влияния на результаты.

Кроме того, авторы предлагают множество других неисследованных направлений исследований. У нас много работы!

Документ 4: Система для общей переориентации объектов в руках

Чен, Т., Сюй, Дж., и Агравал, П. (2021). Система общей переориентации предметов в руке. препринт arXiv arXiv:2111.03043.

В этой статье авторы представляют основу для конкретного изучения этой задачи переориентации. Цель состоит не в том, чтобы научиться манипулировать одним объектом, как во многих предыдущих работах, а в том, чтобы манипулировать широким спектром объектов, включая объекты, с которыми агент никогда не сталкивался на этапе обучения. Более того, их также интересует неизученный случай, когда рука не ладонью вверх, а ориентирована вниз (более сложная задача, так как она должна иметь дело с гравитацией).

Фреймворк довольно хитрый. Авторы начинают с того, что в реальном мире некоторые дескрипторы измерить труднее, чем другие (например, скорость объекта измерить сложно, а положение суставов робота измерить очень просто). Однако в моделировании эти компоненты легко доступны. Они также обнаружили, что агент, у которого есть полное наблюдение, содержащее все эти функции, учится намного быстрее и лучше, чем агент, у которого есть только легко измеряемые функции. Вот что они предлагают: обучение в моделировании с полным наблюдением. Обученный таким образом агент называется учителем. Затем ученик обучается подражать учителю, но по упрощенному наблюдению. Результаты неплохие, и авторы показывают, что этот метод позволяет научиться манипулировать многими объектами с помощью одного агента. Эти результаты еще больше улучшаются с помощью того, что они называют учебным планом по гравитации (я позволю вам обратиться к статье для получения более подробной информации).

В заключение они отмечают, что самое удивительное наблюдение заключается в том, что информация о форме не требуется для управления объектом.
Зрительное восприятие может быть менее важным, чем мышление для манипулятивной задачи. Это наблюдение, хотя и удивительное, остается естественным, когда понимаешь, что манипулировать предметом с закрытыми глазами не сложнее.

Спасибо, что дочитали мою статью до конца. Буду рад прочитать ваши комментарии.

Некоторые из вас могут заметить, что я удалил «еженедельник». Это нормально. Работы, связанной с написанием этой еженедельной статьи, было слишком много, и мне часто не хватало материала. Отныне эти обзоры будут публиковаться по мере их завершения, в зависимости от имеющегося у меня материала.