Best of arXiv - январь 2021 г.

Ежемесячная подборка статей по ML.

Трудно оставаться на вершине списка для чтения, а найти статьи, которые должны быть в этом списке для чтения, может быть еще сложнее. В Zeta Alpha мы всегда внимательно следим за последними исследованиями машинного обучения, поэтому мы подумали, что было бы полезно делиться ежемесячной подборкой последних статей, чтобы выявить, что, по нашему мнению, будет влиятельными публикациями, в основном на основе вкладов каждой работы. и репутация авторов. Не воспринимайте этот список как исчерпывающий: у нас есть свои предубеждения, как и у всех остальных, но эй, из более чем 2000 статей вы можете выбрать только так много. Наслаждаться!

1. Изучение переносимых визуальных моделей с помощью надзора за естественным языком (OpenAI CLIP) | ✍️ Запись в блоге | 👾 Код

Авторы: Алек Рэдфорд, Чон Ук Ким и др.

🎖 Почему → Статьи OpenAI всегда производят много шума в сообществе, в большинстве случаев по уважительной причине. Обширность раздела результатов и впечатляющая производительность нулевого выстрела делают эту работу обязательной к прочтению для людей, интересующихся CV и NLP.

💡 Ключевые выводы → Основная суть этой работы соответствует учебнику OpenAI и еще раз подтверждает Горький урок Саттона:

Создавать самый большой и лучший в своем классе набор данных для задачи; в данном случае пары (изображение, текст) сканировались из Интернета (400 миллионов выборок🤯).
Тщательно инженерное обучение для масштабных и крупных вычислений.
Покажите, что простая задача - это все, что вам нужно, если вы увеличиваете масштаб данных и достаточно вычисляете.

В этом случае они создают набор данных из 400 миллионов пар (текст, изображение) из сети без каких-либо человеческих ярлыков и совместно изучают представления текста и изображений в контрастной обстановке; где модель максимизирует сходство для положительных пар (текст, изображение) и отталкивает отрицательные пары. Обширность экспериментов поистине захватывает дух, и среди результатов, пожалуй, наиболее интересными являются результаты классификации нулевого выстрела, где производительность сравнима с полностью контролируемым линейным классификатором с лучшими функциями ResNet-50 ( см. рисунок ниже).

2. RepVGG: Снова делаем ConvNets в стиле VGG великими | 👾 Код

Сяохань Дин и др.

🎖 Почему → SOTA - это еще не все, и эта работа доказывает, что она возвращается к основам надежных и быстрых CNN для классификации изображений, сохраняя при этом производительность последних приемов ветвления ResNets, поражая сладкой скоростью- баланс производительности.

💡 Ключевые выводы → по мере развития области компьютерного зрения эффективность, скорость и настраиваемость становятся все более актуальными, потому что исследования хотят быть актуальными в реальных приложениях. Основная тема этой работы - «давайте вернемся к основам и преуспеем в этом»: они хвастаются отсутствием ветвления, только с использованием сверток 3x3 + ReLU и без использования поиска по архитектуре, составного масштабирования или каких-либо других другие «тяжелые конструкции».

Основной вклад этой статьи - это то, что авторы называют структурной перепараметризацией. Этот метод позволяет обучить модель с остаточными связями, а затем преобразовать их в топологию модели с одним путем, что делает вывод очень быстрым. Производительность ImageNet Top-1 все еще находится на уровне 80% (далеко от 90% SOTA), но реальная скорость выполнения примеров в секунду на одном графическом процессоре намного опережает конкурентов.

3. Как сделать предварительно обученные языковые модели лучшими учениками с небольшим числом учащихся | 👾 Код

Авторы: Тяньюй Гао, Адам Фиш и Данки Чен.

🎖 Зачем: мы не будем в ближайшее время развертывать модели размером GPT-3 из-за ресурсов, которые для этого требуются, но мы все готовы предоставить удивительно малое количество снимков. возможности для моделей меньшего размера!

💡 Ключевые выводы: возможно, главный вклад GPT-3 заключался в удивительном малом числе выстрелов и нулевой производительности, а также в «парадигме подсказок», когда вместо точной настройки модели под задачу можно найти подсказки, которые заставить модель успешно выполнять задачу без специальных меток. В этой работе авторы исследуют, как мы можем обучить меньшие языковые модели отображать аналогичные небольшие возможности. Раздел «Связанные работы» статьи - это кладезь соответствующих ссылок в подобных исследовательских направлениях, таких как «Малые языковые модели тоже малообучаются» ⁴ Шика и Шютце.

В статье рассматривается несколько вариантов обучения, в которых мы предполагаем, что у нас есть предварительно обученная модель L, которую мы хотим настроить для новой задачи D с ограниченным набором из K обучающих примеров для каждого класса. Для этого они изучают тонкую настройку на основе подсказок, при которой вместо обновления параметров модели с помощью контролируемого сигнала из задачи D вы объединяете обучающую выборку с подсказкой, которая заставит модель завершить предложение, классифицируя его. Например, при обзоре фильма «Нет причин его смотреть» модель получает запрос «Нет причин его смотреть. Это была [МАСКА] ". которому модель предсказывает токен маски, который мы связываем с меткой настроения.

Они исследуют тонкую настройку с помощью ручных и автоматических подсказок вместе с «демонстрациями», которые объединяют помеченные примеры с вводом подсказки для модели. Результаты показывают, что с помощью этих методов модели на малом языке могут очень хорошо работать в настройках с небольшим количеством кадров.

4. Коммутационные трансформаторы: масштабирование до триллионов моделей параметров с простой и эффективной разреженностью | 👾 Код

Авторы: Уильям Федус, Баррет Зоф и Ноам Шазир.

🎖 Почему → Мы часто связываем большее количество параметров с необходимостью дополнительных вычислений, но это не всегда так. Масштабирование моделей - это тенденция, которая будет оставаться актуальной на долгие годы, и эта работа является отличным примером расширения границ размеров модели.

💡 Ключевые выводы → Слово триллион в названии требует некоторых оговорок, эти триллион параметров разрежены, что означает, что большинство из них не используются. при вычислении прямого прохода. Каждый уровень Transformer представляет собой смесь экспертов с жесткой маршрутизацией во время вывода, так что количество операций на прямой проход остается постоянным при добавлении экспертов, хотя объем памяти и накладные расходы на связь между вычислительными узлами действительно увеличиваются.

В документе слишком много содержания, чтобы его можно было сжать в паре абзацев, но я хотел бы подчеркнуть, что одним из самых интересных открытий является то, как масштабирование Transformers путем добавления экспертов на каждый уровень существенно ускоряет обучение, сохраняя при этом другие переменные постоянными.

Судя по результатам, производительность все еще не близка к сходимости при максимальном количестве параметров, поэтому мы можем ожидать обнаружения более интересных явлений при еще большем увеличении. Это важно в реальных условиях, потому что модели меньшего размера могут быть отделены или отсечены от более крупных, которые превосходят аналогичные модели, обученные с нуля; это парадигма обучения, которая может стать доминирующей в ближайшие годы.

5. Об опасностях случайных попугаев: могут ли языковые модели быть слишком большими?

Эмили М. Бендер, Т. Гебру, А. Макмиллан-Мейджор и С. Шмитчелл.

🎖Почему → в качестве контраргумента к работе, которую мы только что поделили с большими трансформерами, вот статья, указывающая на опасности статус-кво языковых моделей. В начале декабря 2020 года споры по поводу предварительной версии этой работы вызвали увольнение исследователя этики ИИ Тимнита Гебру из Google, который стал центром публичных дебатов по этике внутри ИИ и сомнительной позиции Google в.

💡Основные выводы → В этом позиционном документе авторы рассматривают текущее состояние языковых моделей и более широкие опасности, которые они несут, такие как экологические и финансовые затраты, набор данных обучения, который увековечивает негативные социальные предубеждения, связанные с отсутствие ответственности у практикующих врачей. Авторы рекомендуют взвешивать эти факторы при построении языковых моделей и выходить за рамки все более крупных моделей в языковых исследованиях, вместо этого сосредотачиваясь на таких областях, как кураторство и документирование наборов данных более высокого качества. Хотя вся история, лежащая в основе статьи, сделала ее содержание более важным, чем оно есть на самом деле, это интересное чтение со множеством релевантных ссылок, которые отражают моментальный снимок языковых моделей по состоянию на январь 2021 года.

6. Переосмысление обучения реранкеров BERT в многоэтапном конвейере поиска | 👾 Код

Авторы: Лую Гао, Чжуюнь Дай и Джейми Каллан.

🎖 Почему → Мы находим эту работу над таблицей лидеров MS-Marco, одним из самых популярных тестов информационного поиска, и, несмотря на очень грубые грани, эта статья основана на очень простое изменение функций потерь для нейронного поиска с многообещающими результатами.

💡 Ключевые выводы → Современные нейронные средства повторного ранжирования работают в два этапа, чтобы снизить высокие вычислительные затраты на запуск полной нейронной сети для вычисления релевантности каждой пары запросов документа.

Первоначальный поисковик (M) выбирает пул кандидатов C из всего корпуса документов D.
Нейронная модель - средство повторного ранжирования (R) - получает каждую пару документ-запрос в качестве входных данных и оценивает их релевантность. Этот процесс обычно полагается на человеческие аннотации релевантности запроса и документа, где переборщик минимизирует потерю двоичной кросс-энтропии среди всех кандидатов C, классифицируя их на положительные или отрицательные выборки.

Обычно можно было бы ожидать, что, когда первая модель M станет лучше, производительность системы в целом улучшится, так как средство повторного ранжирования получает на выбор лучшие примеры, и работы пытались улучшить этот первый этап поиска. Однако эксперименты показывают, что, когда средство извлечения M выбирает лучший пул документов, модулю повторного ранжирования R часто бывает труднее отличить релевантные документы от нерелевантных. В этой статье предлагается очень простое решение этого явления, которое состоит в замене потери BCE - когда все документы классифицируются как релевантные или нерелевантные - на Contrastive Loss, когда одновременно рассматривается только 1 положительный документ и отбираются отрицательные документы. среди документов с наивысшим рейтингом по версии M, которая учитывает ложные срабатывания сильнее, чем BCE:

Этого умного простого изменения достаточно, чтобы поставить эту работу на первое место в тесте MS-MARCO. Однако, как вы увидите, если ознакомитесь с этой статьей, это все еще очень грубая предварительная работа, а результаты очень ограничены: максимальная эффективность зависит от уловок и эвристики (как и все ведущие подходы с инфракрасным излучением), и многие и многие другие эксперименты по абляции проводятся. требуется, чтобы действительно понять преимущества использования этой контрастной потери при повторном ранжировании. Мы с нетерпением ждем этого!

7. Сквозное обучение нейронных ретриверов для ответа на вопросы в открытой области | 👾 Код

Девендра Сингх Сачан и др.

🎖 Почему → в отличие от предыдущей статьи, эта работа представляет собой подробное систематическое исследование предварительных обучающих заданий для открытого ответа на вопрос (QA), которое во многом совпадает с задачей ранжирования и повторного ранжирования документов, которую мы только что обсуждали. Это хорошее введение в самые современные практики, которые доминируют в списках лидеров QA и составлено авторитетными исследователями из MILA, McGill и NVIDIA.

💡 Ключевые выводы → В этом случае нейронный конвейер для ответа на открытый вопрос также состоит из Retriever первого этапа, который выбирает пул контекстов, а Reader принимает вопрос «q» и набор контекстов «K» кодируют их, а затем декодируют ответ «a» на основе этого ввода из двух частей. В качестве модели Reader они используют предварительно обученную модель T5³.

Как и в случае с бумагой Switch Transformers, здесь есть много существа, которое можно подытожить в одном абзаце. Двумя основными предтренировочными задачами, изучаемыми ретривером, являются Inverse Cloze Task¹ (ICT) и Masked salient spans²:

Задача обратного закрытия (ICT): извлечение сегментов документа и изучение представления сегментов и документов, которое соответствует сегментам документа, которому они изначально принадлежат в контрастной настройке.
Маскированные выступающие промежутки: прогнозирование скрытых выступающих промежутков токенов, таких как именованные сущности.

Кроме того, в этой работе сравниваются два метода включения контекстов в генерацию ответа:

Индивидуальный топ-k: вероятность ответа раскладывается на сумму маржинальных значений по набору контекстов K.
Joint top-k: вероятность ответа вычисляется непосредственно по набору контекстов K. На практике это означает, что контексты объединяются в качестве входных данных для модели читателя, и вопрос может относиться ко всем документам одновременно для генерации ответа.

Результатом этой работы стали самые современные технологии для первого этапа поиска, а также для «сквозного» контроля качества в наборах данных Natural Questions и TriviaQA.

8. Создание экземпляра злоумышленника: нижние границы для дифференциально-частного машинного обучения

Автор: Милад Наср и др.

🎖 Почему → Практика машинного обучения с дифференциальной конфиденциальностью (DP) все еще не является общепринятой, и отчасти это связано с высоким входным барьером и относительно ранней стадией исследований. Пусть вас не пугают причудливые слова в названии: эта работа представляет собой подробное введение в DP и исследование того, насколько можно сохранить конфиденциальность при создании экземпляров злоумышленников в реальных условиях.

💡 Ключевые выводы → Представьте, что вы хотите обучить модель работе с конфиденциальными медицинскими данными, хранящимися в больнице. Вы определяете вычисление для обучения модели с этими данными, и для каждой итерации обучения вы отправляете веса вашей модели в больницу, а больница вычисляет некоторые обновления веса и отправляет их вам. Итак, если бы вы были очень умным злоумышленником - противником -, могли бы вы вывести какие-либо отдельные данные из набора обучающих данных с учетом обновленных весов? Дифференциальная конфиденциальность заботится о добавлении достаточного количества шума к получаемым вами данным, чтобы вы не смогли восстановить из них какие-либо разумные данные (это чрезмерное упрощение, но вы уловили суть).

Теперь Differential Privacy обычно изучает формальные верхние границы конфиденциальности (то есть наихудшие сценарии), в которых, например, гипотетический злоумышленник имеет полный доступ к каждому промежуточному обновлению веса. Но в реальных условиях мы можем еще больше уточнить эти ограничения, превратив их в более реалистичные. Например, случай, когда злоумышленник имеет доступ только к окончательной модели или только к своим прогнозам через API и т. Д. В этой статье исследуется, как сохранение конфиденциальности работает в этих более реалистичных случаях. Результаты показывают, что границы конфиденциальности значительно увеличиваются, когда накладываются эти реалистичные ограничения, что является обнадеживающим результатом для реальной применимости этих методов.

9. GENIE: таблица лидеров для непрерывной оценки текста | 👾 Код | 🌐 Сайт

Автор: Даниэль Хашаби и др.

🎖 Почему: если прогресс машинного обучения в настоящее время сводится к спискам лидеров, их не следует ограничивать только областями, в которых возможна полностью автоматическая оценка. Генерация текста - одна из таких задач, где полностью автоматическая оценка особенно трудна: оценки BLEU, ROUGE до определенной степени коррелируют с человеческими суждениями, и эта корреляция нарушается, когда они становятся целями оптимизации.

В этой статье предлагается эталонный тест, который сочетает в себе классическую автоматическую оценку с удобной оценкой, проводимой людьми. Удобство здесь делает большую часть тяжелой работы: эталонные тесты, проводимые людьми, использовались десятилетиями, но никогда не были такими масштабными и удобными, как автоматические тесты, такие как GLUEbenchmark. Существующие системы оценки «человек-в-цикле», такие как HYPE⁵, ChatEval⁶ или HUME⁷, сосредоточены только на одной задаче каждая, поэтому будет интересно посмотреть, насколько популярна GENIE в сообществе в качестве эталона более общего назначения.

🔗 Где его найти: Вы можете узнать больше об этом и о том, как отправить свою модель, на https://leaderboard.allenai.org/genie-mt/submissions/public

10. Асимметричная игра с самими собой для автоматического обнаружения целей при манипуляциях с роботами | 📺 Демо

Автор OpenAI et al. (запрошенный формат цитирования из бумаги)

🎖 Почему → Самостоятельная игра применительно к манипуляциям с роботами. Несмотря на то, что он был отклонен на ICLR 2021 из-за недостаточной экспериментальной глубины (т.е. все эксперименты являются только моделированием), идея, лежащая в основе этого, очень многообещающая и, несомненно, окажет серьезное влияние.

💡 Ключевые выводы → В документе представлена задача манипулирования роботами, что по сути означает научить робота манипулировать объектами с заданными инструкциями или определенной целью. В этом случае они исследуют, как робот может научиться манипулировать объектами для достижения цели, имея только конечную цель и никаких инструкций.

Идея решить эту проблему очень проста: мы рассматриваем двух роботов, Алису и Боба. Алиса создает конфигурации объектов, и Бобу необходимо их воспроизвести. Алиса награждается за то, что придумывает конфигурации, которые Боб не может создать, а Боб награждается, когда он может воспроизвести состояние Алисы. Учитывая, что Алисе необходимо сгенерировать конфигурации для Боба, мы уверены, что состояния, которые представлены Бобу, допустимы. В этой обстановке ни Алисе, ни Бобу не требуется маркированный надзор, и, учитывая, что и Алиса, и Боб начинают с нуля в этой состязательной обстановке, конфигурации, которые придумывает Алиса, естественно, будут становиться все более сложными, имитируя концепцию обучения по учебной программе, когда задача становится все более сложной. сложно, но без явного кураторства набора задач, оцениваемых по сложности.

Есть много дополнительных деталей, необходимых для того, чтобы сделать этот процесс стабильным и работать на практике, но, как показывают эксперименты по моделированию, самостоятельная игра кажется более эффективной и надежной, чем обучение по учебной программе, чтобы научить Боба стать экспертом в управлении объектами на поверхности.

Наша ежемесячная подборка на этом заканчивается, но мы только начинаем. Если вы хотите быть в курсе последних исследований, подписывайтесь на нас в Twitter @zetavector. Я уже с нетерпением жду возможности поделиться оттенком следующего выбора на февраль; до скорого!

Ссылки:

[1] Скрытый поиск ответов на вопросы в открытом домене под слабым контролем Кентон Ли и др. 2019.

[2] REALM: предварительное обучение модели языка с расширенным поиском »Гуу и др. 2020.

[3] Изучение ограничений передачи обучения с помощью унифицированного преобразователя текста в текст »Колина Раффеля и др. 2020.

[4] Малые языковые модели тоже редко изучаются »Шик и Шютце, 2020.

[5] HYPE: эталон для оценки человеческого восприятия генеративных моделей »Шарон Чжоу и др. 2019.

[6] ChatEval: инструмент для оценки чат-ботов Жоао Седока и др. 2019.

[7] Унифицированная человеческая и статистическая оценка для генерации естественного языка »Тацунори Хашимото и др., 2019.