Робототехника и обучение с глубоким подкреплением в системах обработки нейронной информации (NeurIPS) 2020

Я изо всех сил старался впитать много контента на NeurIPs 2020, и это было так же подавляюще, как и прежде. Каждый принимает решение о том, на каком контенте они хотят сосредоточиться, и это всегда компромисс между исследованием (изучением нового) и эксплуатацией (дальнейшее усвоение материала в вашей области знаний). . Я решил сосредоточиться на своих областях знаний: обучение на основе моделей, RL и робототехника (я также потратил немало времени на общение, но это произошло между строками этих заметок). Для некоторых из этих бесед требуется регистрация, но могут стать доступны общедоступные ссылки.

Мастерские

Некоторые из моих наставников сказали, что семинары - лучшая часть конференций, и я начинаю с этим соглашаться. Здесь вы видите новейшие работы, честные мнения и знакомые лица (или аватары). Панели в этом году были там, где состояние полей обсуждалось наиболее открыто, поэтому я собрал свои выводы ниже.

Панель обучения роботов

Ссылка на семинар по обучению роботов. Участниками дискуссии были Питер Стоун (Юта Остин), Жаннетт Бог (Стэнфордский университет), Дорса Сэдиг (Стэнфордский университет), Пит Флоренс (Google Research, Mountain View), Каролина Парада (Google Research, Mountain View), Джемин Хванбо (Корейский институт перспективных исследований). наук и технологий) и Фабио Рамос (Сиднейский университет и NVIDIA).

Практическая робототехника. Группа началась с обсуждения того, почему мы (как ученые) не наблюдаем большого проникновения роботизированных систем, основанных на обучении, в реальный мир. Это то, о чем я думал (и веду блог) чаще - действительно ли мы находимся в точке перегиба робототехники в реальном мире? Сложно сказать. Участники дискуссии продолжили перечислять некоторые второстепенные приложения обучения в реальной робототехнике, но остановились на интересном обсуждении необходимости отличать промышленные приложения от промышленных потребительских товаров. Мне это интересно - некоторые компании вроде Skydio демонстрируют, что есть вещи, которые можно делать в потребительском режиме. Я хотел бы добавить, что, возможно, стимулы государственных компаний делают капитальные затраты на внедрение роботов слишком сложными, чтобы их можно было отразить в балансах и квартальных отчетах - когда же, если не сейчас, роботы-кассиры и кассы станут чем-то особенным?
Сквозные системы. Похоже, что участники группы по обучению роботов пришли к единому мнению, что «сквозные системы непрактичны». Они потратили время на обсуждение примера навигации (указав на недавнюю работу Грейс Гао) и того, насколько классические методы лучше. Каролина из Google выступала за системы, основанные на обучении, в условиях неопределенности, но использование обучения для логистического эквивалента доставки «последней мили» кажется намного лучше. Создайте работающую систему, а затем посмотрите, сможет ли постоянное обучение со временем ее оптимизировать. Обсуждаемые большие ограничения для внедрения в отраслевые приложения - это надежность и безопасность.
Менталитет робототехники: Я хотел бы отметить из дискуссии, что робототехники, похоже, очень любят свою работу, сети и роботов. Состоялось продолжительное обсуждение международного сотрудничества и новых способов проведения экспериментов с роботами в условиях изоляции. Это то, что я очень ценю в этой области - люди, кажется, искренне хотят взаимодействовать с вещами и показывать, что они работают (лично мне грустно, что у меня нет хороших систем, настроенных для роботизированных экспериментов - это то, что я буду искать когда выхожу на рынок труда).
Симуляторы: Последнее, что я сделаю, это обсуждение симуляторов, в широком смысле, включая то, как определять симуляторы, где использовать sim2real, как определение симулятора влияет на задачу и многое другое. В кружках по обучению роботов очень хорошо разбираются в моделях и в том, как они влияют на результаты. Поскольку симулятор не является идеальным, интересно услышать о сопоставлении симулятора и задачи. Вы тратите время на то, чтобы сделать контактные силы более точными или распараллеливать симулятор, чтобы получить больше образцов?

Панель Deep RL

Связь с семинаром по глубокому обучению с подкреплением (был также офлайн-семинар по RL, который показался интересным. Участниками дискуссии были Марк Беллемар, Мэтт Ботвиник, Эшли Эдвардс, Карен Лю, Сьюзан Мерфи, Ануша Нагабанди, Пьер-Ив Аудейер и Питер Стоун.

Темп RL: панель Deep RL была очень светоотражающей. Один из первых вопросов был попыткой подразнить, есть ли «общее замедление темпов исследования» и что это означает для исследователей. Лично я такого не видел. Эксперты охарактеризовали это как замедление темпов достижений, возможно, потому, что нам нужно решить меньше новых смоделированных задач.
Воспроизводимость. Важно отметить, что обсуждались скрытые элементы бумаги, препятствующие воспроизводимости. По сути, во многих проектах RL требуется множество уловок с кодом, чтобы заставить его сойтись, и они не заканчиваются в статьях (в лучшем случае они находятся в приложениях). Это отстой для воспроизводимости, но разве это скорее соревновательная гонка за новейшими достижениями? Имеет ли значение на практике, что нашему алгоритму требуется вдвое больше выборок для схождения? Это привело к обсуждению стимулов.
Методы против понимания: По словам Ануши, «хороший метод - это хорошо». В RL-сообществе есть страстное увлечение идеями и хорошими результатами. Иногда в исследованиях, особенно в отношении приложений, хорошего метода бывает достаточно, и придумывание причин, по которым он является проницательным, может быть не лучшей практикой. Ануша прокомментировала, что у нее не было времени на размышления, когда она спешила попытаться добиться потрясающих результатов, которых она добилась в своей докторской степени. Такая перспектива, когда нужно просто погрузиться в работу, а не пытаться приукрашивать вещи, может понадобиться в полевых условиях. Эшли Эдвардс сделала еще один шаг вперед, чтобы прокомментировать, что это может быть нормально, если у нас будет меньше людей выходить на поле и меньше глаз, наблюдающих за всей работой. Это снижает напряженность и может способствовать творческому мышлению. Я определенно согласен - я пытаюсь придумывать проблемы, которые считаю важными, и не сосредотачиваюсь на цитировании и количестве статей, но это утомительно.
Данные v структура модели: вопрос, который положил начало этому обсуждению, заключался в том, «почему у глубокого RL нет эквивалента LSTM, трансформаторов и CNN для нашей области?». В общем, ответ заключается в том, что RL имеет непоследовательную структуру данных и по своей сути использует другие типы контролируемого обучения. Было интересно услышать, как они обсуждают, почему RL не имеет эквивалента задачи «воображение» (MuJoCo плохо справляется с этим, потому что с ним сложно работать и с ним дорого), так что, возможно, мы не оптимизируем для общих , структурные прорывы (люди сами создают свои проблемные места). Мне понравилась аналогия: один из участников дискуссии предположил, что, возможно, исследователям следует искать что-то вроде структурированного метода исследования, который можно было бы обобщить по всем областям. Я не уверен, как это выглядит, но произвольность RL определенно верна. Структура RL как бы создает эту проблему, но эти неопределенности также являются причиной того, что она так увлекательна (сложнее определить проблему оптимизации).
Где изучать RL: Интересно, что никто не поспешил ответить на вопрос, куда людям идти, чтобы изучать RL? Это явно проблема для области, если нет хороших ссылок (Я пытался помочь!) В конце концов они сослались на книгу RL и обсудили, как разные предпосылки для изучения делают ее трудной для начала. Например, многие люди начинают с оптимального управления и принципов Беллмана, но есть также много студентов, специализирующихся на программном обеспечении, которые пытаются погрузиться в работу и заставить все работать. Различный фон и отсутствие основной учебной программы усложняют междисциплинарный дискурс.

Бумаги и остатки

Моя статья о долгосрочном прогнозировании в роботах (или видео) была принята хорошо. Практически все согласны с тем, что нынешние механизмы прогнозирования не являются фантастическими, но, что интересно, большинство дискуссий переходит в разговоры о планировании (где методы, основанные на выборке, являются наиболее распространенным инструментом). Я рад, что снова оказался в NeurIPs, и это был первый год, когда я почувствовал, что общаюсь со многими людьми в моей области, которых я читал и слышал, но на самом деле не встречал. Передайте привет коллегам, с которыми мне понравилось общаться: Майкл Чжан (Торонто), Олег Рыбкин (Пенн), Томас Мёрланд (Делфт). Я был бы счастлив попробовать сотрудничать с некоторыми из этих людей в будущем, в сообществе есть много пересекающихся идей о том, что должно работать, но нет уверенности в том, почему что-то еще не работает.

Перед конференцией я пометил некоторые документы, относящиеся к моей работе, и нашел некоторые из них в сети, которые следует выделить. Небольшое примечание: как на семинарах по обучению роботов, так и на семинарах по глубокому RL появилось несколько статей, в которых я был немного разочарован. Я думаю, что семинары не отслеживаются и активно этому не препятствуют, но это кажется немного неискренним.

Глубокое обучение нескольких роботов с подкреплением с помощью иерархически интегрированных моделей - разговор: иерархические модели (восприятие и динамика) объединяют модели с аналогичными видеопотоками для роботов с отдельной низкоуровневой динамикой. Эта статья была крутой, потому что на самом деле использовались данные от нескольких классов роботов.
Навигация на основе моделей в средах с новыми макетами с использованием абстрактных двумерных карт - бумага, разговор: я нашел это, потому что в моем группа. Это немного отличается от того, что я думал вначале, но тем не менее интересно.
Модельно-ориентированное обучение с подкреплением через латентно-пространственное сопоставление - бумага, разговор: за счет совместной оптимизации состояния и действий агент улучшает (визуальную) управляемую модель на основе модели. Возникает вопрос: почему это еще не сработало в RL на уровне штата?
Непрерывное модельно-ориентированное обучение с подкреплением в гиперсетях - бумага, разговор: Не успел подробно прочитать.
Ускорение обучения с подкреплением с помощью базовых навыков - бумага, разговор: это одна из статей на семинарах по Deep RL и Robot Learning.
Модели динамики авторегрессии для автономной оценки и оптимизации политики - бумага: в этой статье делается попытка использовать модели авторегрессии (прогнозировать каждое состояние по одному, позволяя измерениям состояния влиять друг на друга и, надеюсь, улучшить корреляция точности модели с улучшением политики). Я был очень счастлив услышать от автора, что он был сильно вдохновлен некоторыми из моих прошлых работ.

Я ставлю разговоры на последнее место, потому что скриншоты занимают много места.

Ключевые переговоры

Мне нужно было следить за двумя основными докладами.

Чарльз Исбелл: От гиперпараметров и скрытых переменных никуда не деться: машинное обучение как предприятие по разработке программного обеспечения

Речь идет о масштабе решаемых нами проблем и их значении. Мы хакеры-компиляторы, и как сообщество мы должны быть специалистами по SWE, этнографами и языковыми ботаниками. Чарльз проводит много аналогий с тем, как мы принимаем иерархические проектные решения, каждое из которых может влиять на поток данных и смещение (во многом подобно историческим приложениям инженерии). Нам нужно больше разнообразных фонов в петле!

Была интересная аналогия с фотографией, когда разные продукты оптимизируются для разных вещей, которые в конечном итоге становятся расистскими. Пленка была оптимизирована для белых цветов, и это продолжается в дальнейшем. Программная инженерия - это практика перевода кода для создания программного обеспечения на основе принципов. Программная инженерия не лишена предвзятости и других потенциальных недостатков. Честно говоря, просто иди и посмотри этот разговор.

Марк Дайзенрот и Ченг Сун Уан: Туда и обратно, путешествие по вычислениям и градиентам.

Это подробный учебник по исчислению и линейной алгебре с точки зрения машинного обучения. Честно говоря, мне он понравился только потому, что авторы приложили столько усилий, чтобы создать мем и историю с точки зрения Средиземья.

Другие разговоры

В остальном были и другие переговоры, которые были интересными, но не на «обязательной» территории.

Бесмира Нуши от MSR об ИИ, ориентированном на человека

В этом выступлении основное внимание уделялось инженерным инструментам, помогающим свести к минимуму данные и алгоритмическую погрешность. Мне понравились его части, потому что они фактически детализировали различные дизайнерские решения, которые можно было бы принять в реалистичных сценариях, вместо того, чтобы широко обсуждать проблемы AI Bias. Они связались с инженерами машинного обучения, а не только с исследователями, поскольку они реализуют все, что обсуждалось. Соответствующие бумага и код

Марта Уайт об источниках неопределенности в методах градиента политики

Интересный разговор, в котором обсуждаются три источника дисперсии в методах градиента политики RL (выборка состояния, выборка действий и выборка вознаграждения). Это очень хороший обзор градиентов политики и урок того, как исследовать проблемное пространство. Для выборки состояний люди используют мини-пакеты при вычислении градиентов. Два других источника, действие и возврат, предполагают более подробные решения. Сокращение для действий - это просмотр всех возможных действий (самое простое). На практике это не работает, потому что это может быть дорого, и мы не знаем Q ^ pi. Решение - использовать базовый уровень. Ключевым моментом является то, что управляющая переменная z не коррелирует во всем ожидании действий.

Уменьшение дисперсии вознаграждения с помощью оценщика, что не похоже на решение всей проблемы (оценщики не идеальны).

Почему я включил этот доклад: важно уметь рассуждать о проблемном пространстве и подробно разбираться в том, где ваша реализация может быть несовершенной. Дисперсия возникает в каждом численном методе / методе, основанном на данных, потому что у нас нет бесконечных данных. Во время этого выступления я проводил связи с проблемами обучения на основе моделей и с тем, как очень трудно устранить неопределенность, вносимую моделью. В каком-то смысле MBRL можно диагностировать, как в этом разговоре, с четвертым источником неопределенности: структурным, т. Е. Отклонением от решений по модели и формулировке контроллера (в этом выступлении особое внимание уделяется градиенту политики).

Дизайн лодки Кубка Америки через RL

Этот доклад на выставке QuantumBlack привлек мое внимание, потому что он сочетал в себе Кубок Америки + RL. Я был впечатлен тем уровнем детализации, который они обсуждали. Было много таких вещей, как запуск и остановка симуляции (где PPO легче работать, чем SAC). Также, как развернуть множество элементов и интегрировать моделирование с высокой точностью с RL. Ключевой вопрос заключается в том, действительно ли этот RL помогает или дизайн настолько недостаточно оптимизирован, что любой автономный метод, вероятно, даст существенный выигрыш.

Еще мысли были в твиттере.

Джефф Шамма: перспективы управления обратной связью на разговоре машинного обучения

Я включил этот доклад, потому что считаю, что это область, в которой многие люди могут извлечь выгоду, но для этого требуется много навыков (машинное обучение и теория управления). В нем рассматривается рабочий пример управления воздушным судном и какие выводы люди могут извлечь из применения обучения к классическим задачам управления.

Стабилизация и формирование поведения - обучение более высокого порядка. Градиентная игра (индивидуализированное обучение в соревновательной задаче) не может сводиться к играм с нулевой суммой, поскольку ее динамика становится нестабильной системой (нули на диагонали матрицы A). Ключевая идея: посмотреть, можем ли мы работать в другом пространстве информации (например, в истории информации) - сделайте это, добавив вспомогательные состояния, обычная практика в теории управления для стабилизации системы (например, интегратор). Также см. Упреждающее обучение - добавление упреждения позволяет сблизиться равновесиям по Нэшу (что имеет смысл концептуально).
Устойчивость к вариациям - пассивное / монотонное обучение. Внешние и внутренние параметры могут изменяться в динамике (параметрическая) и изменяться в динамике (например, жидкости). Динамические вариации вводят новые состояния, потенциально систему бесконечного порядка. Представляет надежный анализ - как семейство систем работает в контексте контроллера. Пример: ограничивающие игры, в которых внутренний продукт изменения стратегии и изменения выигрыша отрицательный (интересное понятие направления). Нам нужно противоположное, правило пассивного обучения, в котором выигрыш и беспристрастное попарное сравнение коррелируют. Мы можем провести анализ устойчивости для семейств систем, абстрагируясь от конкретного контроллера.
Отслеживайте командные сигналы - прогнозирование и обучение без сожаления. Джефф быстро прошел через этот раздел, так что я не получил от него столько пользы, но он пытается объяснить необходимость временного разделения (и стабильности по сравнению с задержкой), когда один сигнал отслеживает другой.

Увидимся в следующем году!

Демократизация автоматизации
Блог о роботах и искусственном интеллекте, которые делают их полезными для всех, и о грядущей волне автоматизации… robotic.substack.com