Еженедельный обзор статей по обучению с подкреплением №4

Каждый понедельник я представляю 4 публикации из моей области исследований. Давай обсудим их!

[← Предыдущий отзыв] [Следующий отзыв →]

Памяти Андреаса.

Документ 1: О роли планирования в моделировании глубокого обучения с подкреплением

Хамрик, Дж. Б., Фризен, А. Л., Бехбахани, Ф., Гез, А., Виола, Ф., Уизерспун, С.,… и Вебер, Т. (2020). О роли планирования в моделировании глубокого обучения с подкреплением. Препринт arXiv arXiv: 2011.04021.

Каков вклад планирования в обучение с подкреплением? Трудно понять: это часть многих очень мощных алгоритмов, таких как MuZero. Но в какой степени этот этап планирования необходим для получения хороших результатов обучения? Это вопрос, на который пытаются ответить авторы данной публикации. Для этого они пересматривают MuZero и сталкивают его с разными средами, с разными абляциями.

Вот дайджест их ответа. Планирование полезно (уф), но не всегда очень эффективно. В некоторых случаях, которые можно интуитивно определить как требующие большого количества рассуждений, например, в Сокобане, нет необходимости в большом планировании. В других, таких как 9x9 Go, на эффективность обучения сильно влияет глубина планирования. С другой стороны, для хорошего обобщения недостаточно планирования. Это предполагает, что выявление хороших предубеждений в политике может быть более важным, чем изучение лучших моделей для стимулирования обобщения.

Интуитивно способность предсказывать будущее важна для изучения правильной политики. Мне интересно фактически подвергнуть сомнению эту интуицию, протестировав алгоритм обучения на основе эталонной модели.

Документ 2: Обучение с подкреплением для надежного параметризованного управления движением двуногих роботов

Ли, З., Ченг, X., Пэн, X. Б., Аббил, П., Левин, С., Берсет, Г., и Шринат, К. (2021). Обучение с подкреплением для надежного параметризованного управления движением двуногих роботов. Препринт arXiv arXiv: 2103.14295.

Двуногие передвижения - отличная демонстрация возможностей машинного обучения. Управление большинством роботов не основано на обучении. Мы используем известные десятилетиями линейные автоматические методы, и результаты очень удовлетворительны. Но эти методы никогда не были достаточно надежными, чтобы заставить двуногого робота ходить. Именно на этом рубеже машинное обучение вызывает большой интерес.

В этой статье авторы представляют структуру обучения с подкреплением, адаптированную для управления двуногим роботом. В этой структуре первая фаза обучения выполняется в моделировании. Однако симуляция систематически отличается от реального мира. Это называется разрывом sim2real. Вот почему они используют рандомизацию предметной области: константы моделирования больше не являются постоянными: они меняются от одной эпохи моделирования к другой. Это позволяет политике быть более устойчивой к изменению домена, которому она подвергнется при развертывании на реальном роботе.

Выученные политики позволяют двуногому роботу выполнять ряд интересных действий: например, на фигуре они дестабилизируют робота, заставляя его скользить. Мы видим, как он правильно реагирует на это возмущение! Он также выполняет другие задачи: быстрая ходьба, повороты, поддержка дополнительного веса…

Еще одна красивая демонстрация возможностей глубокого RL применительно к управлению роботами. Смотрите их видео. Я нахожу это осознание весьма показательным, поскольку каждый из нас научился ходить в первые месяцы жизни.

Документ 3: Эффективные трансформеры в обучении с подкреплением с использованием дистилляции «актер-ученик»

Паризотто, Э., и Салахутдинов, Р. (2021). Эффективные трансформеры в обучении с подкреплением с использованием дистилляции актера и ученика. Препринт arXiv arXiv: 2104.01655.

Для некоторых приложений, особенно для управления роботами в реальном времени, необходимо, чтобы время отклика изученной модели было низким. Робот должен быстро реагировать на изменения в окружающей среде. Таким образом, изученная модель должна быть достаточно простой, чтобы сделать вывод, совместимый с ограничениями управления в реальном времени. Очень часто усвоенные модели обучения с подкреплением просты. Как сказал бы Андрей Карпатый

Все, что я знаю о дизайне ConvNets (реснеты, большие = лучшие батчнормы и т. Д.), Бесполезно в RL. Лучше всего работают супербазовые 4-х слойные ConvNets . ["источник"]

Но тогда как воспользоваться преимуществами сложных моделей, которые делают контролируемое обучение таким успешным? Чтобы ответить на этот вопрос, авторы данной публикации предлагают процедуру «дистилляции актера-ученика» (ALD). Это позволяет переносить прогресс обучения из модели, изученной в большой сети, в меньшую сеть. Это позволяет им использовать, например, очень эффективную, но очень тяжелую трансформаторную архитектуру в немарковских средах (т.е. частично наблюдаемых средах). Затем эта супер-модель перерабатывается в более легкую модель LSTM.

Они протестировали его в довольно простых средах (I-Maze 9x9 и Meta-Fetch), и изученная модель сумела объединить легкость LSTM и эффективность трансформатора. Это могло бы помочь примирить обучение с подкреплением и обучение с учителем на пользу обучения с подкреплением!

Документ 4: pH-RL: Архитектура персонализации для внедрения обучения с подкреплением в практику здравоохранения

Хассуни, А. Э., Хугендорн, М., Цихарова, М., Клейбоер, А., Амарти, К., Мухонен, В.,… и Эйбен, А. Э. (2021). PH-RL: архитектура персонализации для внедрения обучения с подкреплением в практику здравоохранения. Препринт arXiv arXiv: 2103.15908.

Всегда одна и та же проблема: в симуляторах или в играх зарекомендовало себя обучение с подкреплением. Но как насчет реального мира? В этой статье авторы представляют общую архитектуру обучения с подкреплением для решения проблемы со здоровьем: персонализация, а точнее персонализация мобильных приложений. Они называют это pH-RL (персонализация в электронном здравоохранении с помощью RL). Эта архитектура позволяет персонализировать медицинские приложения посредством обучения, а уровень персонализации можно регулировать.

Фактически, они предлагают руководство по внедрению модели обучения с подкреплением в мобильное приложение для здоровья. Они демонстрируют эффективность своего подхода с помощью приложения MoodBuster (платформа, которая обрабатывает психологические жалобы в Интернете). Эмпирически они показывают, что усвоенная модель правильно выбирает действия и сообщения, необходимые для максимального ежедневного соблюдения терапевтических модулей.

Мне нравятся статьи такого рода, в которых говорится о здравоохранении. Результаты интересны, но я не могу не заметить: остерегайтесь технологического решения, особенно в здравоохранении.

Бонусная работа: многомиллионный отчет о растительности и ледниковой истории Гренландии, сохраненный в отложениях под 1,4 км льда в Camp Century.

Крист, А. Дж., Бирман, П. Р., Шефер, Дж. М., Даль-Йенсен, Д., Стеффенсен, Дж. П., Корбетт, Л. Б.,… и Саутон, Дж. (2021). Многолетняя запись о растительности и ледниковой истории Гренландии, сохранившаяся в отложениях под 1,4 км льда в лагере Сенчури. Proceedings of the National Academy of Sciences, 118 (13).

50 лет спустя забытый образец раскрывает тревожную историю Гренландии. Благодаря кускам камня и почвы, случайно собранным в разгар холодной войны, на которые никто не обращал внимания в течение десятилетий, исследователи показали, что ледяная шапка Гренландии полностью растаяла около миллиона лет назад.

В 1966 году американские исследователи были отправлены в лагерь Сенчури в Гренландии для проведения бурения на глубину 1400 метров. Цель? Официально: разгадывать секреты выживания в Арктике. Неофициально: это спрятать под ледяной покров 600 ядерных ракет в пределах досягаемости Советской России. Под руководством Честера Лэнгуэя керн из 1,4 км льда и 3 м подледниковых отложений извлекается, замораживается и переносится на склад Университета в Буффало. Уникальный архив, о котором со временем забудут на несколько десятилетий. Честер Лэнгуэй не решился уничтожить эти образцы в 1990-х, чтобы освободить место в морозильных камерах университета. Но в конечном итоге их принял Университет Копенаги.

В 2017 году во время капитальной очистки знаменитые образцы будут переданы нескольким командам по всему миру, в том числе одной из Университета Вермонта. В 2021 году исследователи из Университета Вермонта изучают эти образцы и обнаруживают окаменелости растительности, возраст которых составляет один миллион лет. Это означает, что миллион лет назад, в лагере Сенчури, вероятно, был бореальный лес, а не ледник.

Однако это удивительное открытие весьма пугает: миллион лет назад средняя температура была всего на 2–3 градуса выше, чем сегодня. По иронии судьбы, это именно тот рост, который прогнозируется на следующие 50 лет. Таяние Гренландии приведет к повышению уровня моря на 6-7 метров. Так чего же мы ждем? Продолжаем ли мы вносить коррективы или действительно стараемся предотвратить это?

Я с большим удовольствием представил вам свои чтения за неделю. Не стесняйтесь присылать мне свой отзыв.