Четыре документа по глубокому обучению, которые стоит прочитать в мае 2021 года

От асимметричной самостоятельной игры для робототехники к обобщению сетей, закрытых линейных сетей и правил обновления с метаобучением

Добро пожаловать в конец апрельского выпуска серии Машинное обучение-Коллаж, в которой я делаю обзор различных направлений исследований в области глубокого обучения. Так что же такое коллаж машинного обучения? Проще говоря, я составляю визуальное резюме из одного слайда одной из моих любимых недавних работ. Каждую неделю. В конце месяца все полученные визуальные коллажи собираются в сводном сообщении в блоге. Таким образом, я надеюсь дать вам наглядное и интуитивно понятное представление о некоторых из самых крутых тенденций. Итак, без лишних слов: вот четыре моих любимых статьи, которые я прочитал в апреле 2021 года, и почему я считаю их важными для будущего глубокого обучения.

«Асимметричная игра с самими собой для автоматического обнаружения целей при манипуляциях с роботами»

Авторы: OpenAI et al. (2021 г.) | 📝 Бумага | 💻 WWW

Резюме в одном абзаце: Полтора года назад OpenAI выпустила свою впечатляющую работу по обучению ловким манипуляциям для сборки кубика Рубика. Процедура обучения основывалась на агенте LSTM-PPO, который потреблял огромные объемы данных на основе естественной учебной программы все большей сложности. Еще в 2019 году эта учебная программа была построена с помощью метода, называемого автоматической рандомизацией предметной области. В недавней работе OpenAI предлагает альтернативную технику для создания богатых обучающих распределений: они масштабируют асимметричную игру с самими собой, чтобы достичь нулевого обобщения для невидимых объектов. В частности, они обучают двух агентов, Алису и Боба, игре на общую сумму. Алиса бегает по окружающей среде и предоставляет Бобу целевое состояние. После этого Боб пытается достичь этой цели. Они соревнуются друг с другом, как в системе GAN. В отличие от многих других подходов к изучению учебных программ, мы всегда уверены, что цель должна быть достижима. Почему? Потому что политика Алисы смогла туда добраться. Следовательно, мы можем использовать ее траекторию как дополнительный контролируемый обучающий сигнал. Но нам нужно быть осторожными, поскольку эта демонстрация, скорее всего, неоптимальна. OpenAI использует контроль только тогда, когда Боб сам не смог достичь цели. Кроме того, чтобы стабилизировать динамику обучения, OpenAI рекомендует вырезать обновление политики в стиле PPO. Авторы называют этот селективный и стабилизированный механизм «Поведенческое клонирование Алисы» (ABC). Они предоставляют обширный набор абляций, показывающих, что самостоятельная игра охватывает широкий круг целей и что ABC увеличивает эффективность выборки.

«Фреймворк Deep Bootstrap: хорошие онлайн-учащиеся - хорошие офлайн-генерализаторы»

Авторы: Наккиран и др. (2021 г.) | 📝 Бумага

Резюме в один абзац: Какова правильная структура для изучения обобщения в нейронных сетях? Традиционные подходы, ограничивающие разрыв в обобщении между ошибками теста и обучения, изо всех сил пытались обеспечить понимание для глубокого обучения. Часто нейронные сети уменьшают ошибку обучения до 0. В этом случае разложение ошибок обучающего теста не дает плодотворных выводов. Наккиран и др. (2021) вместо этого предлагают изучить другой пробел: разницу в производительности между сетью, обученной на свежих пакетах на каждом этапе обновления («потеря населения», «идеальный» мир, он же. Онлайн-обучение) и сетью, обученной эпохам переработанных партий. («Эмпирическая« потеря »или« реальный »мир или автономное обучение). Авторы демонстрируют на наборе синтетических наборов данных и общих архитектур, что этот пробел кажется небольшим в реальных условиях, что, в свою очередь, позволяет сделать следующую гипотезу: Обобщение в автономном обучении похоже на быструю адаптацию в онлайн-обучении. Так почему это может быть важным выводом? Проще говоря, это открывает новую перспективу для изучения многих, возможно, непрозрачных «хаков» в наборе инструментов Deep Learning. В статье, например, авторы обсуждают неявную регуляризацию SGD, чрезмерную и недостаточную параметризацию, а также то, что делает метод увеличения данных хорошим.

«Закрытые линейные сети»

Авторы: Veness et al. (2019) | 📝 Бумага | 🤖 Код

Резюме в один абзац. Большая часть современного глубокого обучения опирается на обратное распространение и обучение градиентному спуску в автономном режиме. Нейробиологи заявили, что требуемая симметрия веса при прямом и обратном проходе, а также глобальное распространение ошибки биологически неправдоподобны. С другой стороны, стробированные линейные сети (GLN) предоставляют новое семейство нейронных архитектур, которые обучаются без обратного распространения и в режиме онлайн с помощью выпуклого программирования. Вместо того, чтобы изучать прогрессивную иерархию функций, каждый нейрон непосредственно обучается выводить предсказание конечной цели. Это предсказание передается другому слою нейронов, которые снова обучаются предсказывать цель. Это дает иерархию смесей экспертов. Обученные параметры - это относительная важность, присвоенная соответствующему входному прогнозу. Номера GLN допускают дополнительную информацию (также известную как функции), которая обрабатывается контекстной функцией и допускает специализацию весов. Наложение смешанных прогнозов друг на друга приводит к границе решения, которая линейно зависит от входных данных. Линейность позволяет легко проверить надежность прогноза и интерпретируемость в стиле «при прочих равных» (что происходит с прогнозом при изменении одного входного измерения?). Veness et al. (2019) показывают, что локализация номеров GLN борется с катастрофическим забыванием и что они особенно хорошо подходят для онлайн / однократного обучения.

«Правила двунаправленного обновления метаобучения»

Авторы: Sandler et al. (2021 г.) | 📝 Бумага

Резюме в один абзац: Что происходит после обратного распространения ошибки и SGD? Одним из захватывающих направлений будущего является метаобучение общего назначения, которое направлено на изучение как индуктивных предубеждений, так и самих правил обучения. Обучение состоит из выполнения стандартного внутреннего цикла алгоритма обучения и дорогостоящего уточнения этого алгоритма во внешнем цикле. В BLUR («двунаправленное изучение правил обновления») Sandler et al. (2021) предлагают мета-изучение общего низкоразмерного «генома», который модулирует как обучение, так и умозаключения. В то время как при обратном распространении существует два состояния нейрона (прямое распространение активности и обратная градиентная агрегация), BLUR позволяет нейронам иметь произвольное количество состояний. Затем метаобученный геном состоит из набора небольших матриц, которые определяют, как эти различные состояния взаимодействуют друг с другом при выполнении обновлений веса и распространения информации, относящейся к задаче. Матрицы подвергаются метаобучению по распределению задач различных прогонов обучения сети с прямой связью. Полученный в результате геном способен превзойти SGD по распределению мета-последовательности и изучить нетривиальную процедуру обновления, отличную от простого градиентного спуска при неизвестной потере. Он универсален для разных задач и архитектур с прогнозированием. Однако важно то, что геном должен быть подвергнут мета-обучению на наборе обучающих прогонов, состоящих из больших сетей, чтобы обобщить его на маленькие.

Это все за этот месяц 🤗 Дайте мне знать, какие статьи вам понравились больше всего. Если вы хотите получать еженедельный ввод в коллаж ML, проверьте хэштег #mlcollage в Твиттере. Вы также можете проверить коллажи в последнем выпуске апрельского выпуска 📖 сообщение в блоге: