Автор: Анджелин Ясодхара

От BERT до CNN необходимость автоматического кодирования необработанных данных в пригодные для использования представления (так называемое обучение представлению) была новаторской и неотъемлемой частью всех приложений машинного обучения.

В прошлом месяце на 10-й Международной конференции по обучающим представительствам (ICLR) было представлено более тысячи статей. ICLR — одна из ведущих академических конференций по информатике, посвященная таким темам, как обучение представлению (для зрения, текста, данных временных рядов и т. д.), обучение на огромных объемах данных, обучение с подкреплением и многое другое.

ICLR 2022 длилась пять дней и включала 12 постерных сессий и девять устных сессий, а также 20 семинаров и 8 приглашенных докладов. Несмотря на то, что весь материал записан онлайн, просмотреть всю информацию может быть сложно. В этом посте вы можете прочитать наше резюме конференции, сосредоточив внимание на следующих темах:

  • Работа со сдвигом распределения
  • Улучшения в обучении представлению
  • Демистификация моделей
  • Выживание моделей в «дикой природе»

Работа со сдвигом распределения

Поскольку модели машинного обучения все чаще используются во всем мире, необходимость адаптации моделей к различным дистрибутивам становится еще более важной, чтобы обеспечить их универсальность в различных средах.

Здесь мы приводим несколько интересных статей, посвященных адаптации моделей к различным дистрибутивам.

Повышение уровня Точная настройка НЛП

Вложения BERT (и их варианты) оказались очень полезными при кодировании текста в различных условиях. Однако при работе с очень специфическим типом текста необходима некоторая настройка, чтобы получить максимальную отдачу от этих вложений.

Из-за огромного размера этих моделей люди часто выбирают способ настройки с эффективным использованием параметров, при котором только части модели дополнительно обучаются с целевым распределением данных. Возможность точной настройки модели путем переобучения лишь небольшого числа ее параметров очень привлекательна, особенно с учетом огромных размеров современных моделей НЛП. Однако эти методы обычно не могут восстановить производительность полностью настроенной модели (где вся модель дополнительно обучается с целевым распределением данных).

В [1] He et al. глубоко погрузились в три различных метода настройки с эффективными параметрами, такие как настройка префикса, адаптер и LoRA. Они проанализировали математическую формулировку, лежащую в основе этих методов, и сформулировали новый способ тонкой настройки, объединяющий эти три подхода. Этот подход к унификации называется адаптером Mix-And-Match (MAM) (github.com/jxhe/unify-parameter-efficient-tuning). Модели, настроенные с помощью адаптера MAM, могли конкурировать с полностью настроенной моделью.

Хотя это большое достижение, некоторые могут быть обеспокоены использованием своих данных для точной настройки, поскольку это может привести к неприятному раскрытию их данных. Если вы беспокоитесь о конфиденциальности своих данных во время тонкой настройки, ознакомьтесь с этой статьей Li et al. где они исследовали, как эффективно выполнять дифференциально-частную (DP) тонкую настройку [2]. Их документ дает представление о том, какую скорость обучения и размер пакета использовать, какие модели хорошо работают в этих условиях, а также о дальнейшем улучшении для снижения потребления памяти в процессе оптимизации DP.

Нулевые модели НЛП: как исполнители делают больше

С тех пор, как вышел GPT-3, многие люди (включая нас) использовали GPT-3 в качестве нулевых прогнозов и подсказок для улучшения результатов. Вэй и др. [3] работал над дальнейшим улучшением этого и представил новый процесс, называемый настройкой инструкций.

Настройка инструкций — это процесс тонкой настройки языковых моделей на наборе наборов данных, описанных с помощью инструкций, с единственной целью — улучшить их производительность при нулевом выстреле. Они берут модель НЛП со 137 байтами параметров и настраивают ее с помощью более 60 инструкций НЛП, что приводит к точно настроенной языковой сети (FLAN). ФЛАН превзошел модель ГПТ-3 175Б с нулевым выстрелом на 7–14%.

Новые и улучшенные контрольные показатели изменения распределения CV

Прежде чем приступить к тонкой настройке Computer Vision (CV), давайте сделаем передышку и обсудим некоторые важные достижения в сравнительном анализе и измерении изменений данных в Computer Vision.

Сдвиги распределения могут проявляться в разных формах, например. изменение метки или распределения признаков, различные фоновые изображения, ориентация или контекст, в котором сделан снимок, и т. д. Существует множество работ, посвященных тому, как преодолеть каждый из этих различных типов распределения, и Wiles et al. объединил их вместе в этом новом тесте [4]. Они изучили 19 различных подходов к рассмотрению различных сценариев сдвига распределения, т.е. невидимый сдвиг данных, ложная корреляция и низкий дрейф данных. Кроме того, их структура также позволяет исследователям экспериментировать со сдвигом в данных. Их эксперименты показывают, что аугментация и предварительная тренировка обычно помогают, хотя и не во всех случаях. Ознакомьтесь с их фреймворком на https://github.com/deepmind/distribution_shift_framework.

Еще один тест, на который вы, возможно, захотите взглянуть, — это тест WILDS, который был первоначально выпущен пару лет назад Кохом и др. (https://arxiv.org/abs/2012.07421). Недавно они расширили этот тест, добавив немаркированные данные в набор обучающих данных [5]. Эти немаркированные данные могут поступать из обучающего, тестового или внешнего дистрибутива. Их результаты показывают, что современные подходы, обученные на дополнительных данных, часто не превосходят модели, просто обученные на обучающих данных. Необходимы дополнительные исследования, чтобы иметь возможность более эффективно использовать эти немаркированные данные, чтобы улучшить обобщение модели.

Еще одна статья о смене распределения, которую я нашел действительно интересной, — это новый класс метрик для измерения сдвига. В настоящее время для измерения сдвигов распределения такие показатели, как Jensen Shannon, KL Divergence, MMD, расстояние Вассерштейна и т. д., учитывают все изображение. Однако часто бывает так, что нас интересуют только определенные части изображения. Например, если есть изображение тигра в лесу и изображение тигра в пустыне, если нас волнует только факт наличия тигра, настройка фона не должна влиять на меру распределения.

Метрики H-дивергенции решают эту проблему, вводя член H-энтропии в существующие метрики дивергенции [6]. Член H-энтропии представляет собой байесовскую потерю, которая зависит от пространства действий для конкретной задачи. Этот член H-энтропии является обобщением энтропии Шеннона и может быть включен в существующие метрики расхождения.

Новый класс метрик H-Divergence можно представить следующим образом:

Улучшение тонкой настройки CV: вне распространения и дальше!

Знаете ли вы, что если вы точно настроите свою модель, ваша модель может работать хуже на наборе данных вне распространения (OOD)? Это определенно имеет смысл, но почему это так? Как объяснили Кумар и др., Это связано с тем, что во время тонкой настройки пространство для встраивания больше изменяется для набора данных в распределении (ID), в то время как пространство для встраивания для набора данных OOD изменяется не так сильно [7]. С линейным зондированием мы избегаем этой проблемы, вообще не изменяя пространство встраивания и замораживая предварительно обученные функции. Однако производительность набора данных ID для линейного зондирования не может сравниться с тонкой настройкой.

Как нам настроить модели, чтобы они хорошо работали с наборами данных ID и OOD? Кумар и др. показали, что, просто проведя сначала линейное зондирование с последующей точной настройкой, вы можете получить более высокую производительность, чем точная настройка как в вашем наборе данных для распространения, так и в вашем наборе данных вне распространения! Они называют этот подход LP-FT, который позволяет пространству для встраивания функций изменяться в 10–100 раз меньше в зависимости от набора данных, при этом повышая производительность более чем на 10% в наборе данных OOD.

Улучшения в обучении представительству

Преобразователь зрения

Этот обзор не будет полным без упоминания Vision Transformer (ViT), который был опубликован в прошлогоднем ICLR (https://arxiv.org/abs/2010.11929). Идея преобразователей зрения состоит в том, чтобы разделить изображения на фрагменты и передать каждый из этих фрагментов как слова в кодировщик преобразователя. Многие статьи в ICLR этого года улучшают ViT и строятся на его основе. Вот некоторые документы, чтобы назвать несколько:

  • BEiT [8]: улучшение предварительной подготовки ViT за счет маскирования блока патчей каждый раз, аналогично маскированию n-грамм в НЛП.
  • ViTGAN [9]: интеграция ViT в GAN с введением новых методов регуляризации для предотвращения нестабильности, а также выбор эффективной архитектуры для конвергенции.
  • EsViT [10]: Внедрение многоступенчатой ​​архитектуры преобразования с разреженным самостоятельным вниманием для уменьшения сложности модели, а также новой задачи предварительного обучения, называемой неконтрастным сопоставлением областей, которая хорошо работает с этой новой архитектурой.
  • Об улучшении состязательной переносимости трансформеров видения [11]: исследование эффективности состязательных атак на ViT и внедрение нового способа эффективной состязательной атаки на ViT с самостоятельным ансамблем

Пользовательские преобразователи для временных рядов и обнаружения выбросов

В Georgian мы также работаем над многими проектами, связанными с данными временных рядов. Итак, данная модификация архитектуры трансформатора представляет для нас особый интерес. Pyraformer представляет собой пирамидальную версию преобразователя, которая снижает сложность и позволяет хорошо работать с данными временных рядов дальнего действия [12]. Это также позволяет извлекать вложения функций с несколькими разрешениями (где мы можем видеть вложения, которые фиксируют данные временных рядов на более высоком уровне, на более детальном уровне и т. д.), сохраняя при этом связь между узлами.

Еще одна интересная работа по преобразователям данных временных рядов — Anomaly Transformer [13]. Сюй и др. адаптирует трансформаторы для обнаружения аномалий временных рядов в неконтролируемых условиях. Преобразователь аномалий состоит из блоков механизма аномалии-внимания с полностью связанным слоем между ними. Каждый блок Anomaly-Attention фиксирует ассоциацию ряда (временной контекст, период/тренд и т. д.) и предшествующую ассоциацию (свойства соседних моментов времени) каждой последовательности временных рядов.

Обучаемый шаг для CNN

Мы все привыкли думать о шагах в CNN как о гиперпараметре. Ну, Риад и др. не удовлетворены этим статус-кво и определяют совершенно новый тип слоя под названием DiffStride, где шаги изучаются и оптимизируются во время обратного распространения обучения [14].

DiffStride — это первый в мире слой понижающей дискретизации/объединения с изучаемыми шагами. Это позволяет частично уменьшать тензоры, основываясь на предыдущей работе Spectral Pooling (https://arxiv.org/abs/1506.03767) и дифференцируемом копинг-окне. Они показали, что DiffStride сходится к другим шагам, чем тот, который ранее считался оптимальным шагом, и превосходит CNN без обучаемых слоев шага.

Демистификация моделей

Фиксация направлений важности функций

Мы так привыкли думать об объяснимости со скалярной важностью признаков. Масуми и др. расширить работу над SHAP, рассмотрев взаимодействие направленных функций [15]. Это позволяет нам узнать, какие функции взаимно избыточны или какие функции влияют на группу.

Апостериорные исследования моделей CV

Когда все поняли, что нам нужно лучше понять, на каких группах образцов наша модель работает хуже, появился новый тест под названием Domino [16]. Domino позволяет определить, на каких образцах изображений модели работают хуже, сгруппировать их вместе и описать эту группу понятным описанием.

Было бы неплохо иметь такие понятные описания для визуализации нейронов? Часто, чтобы объяснить, чему обучается нейрон, мы полагаемся на визуализацию входных данных, которые вызывают активацию нейронов. Но когда этих изображений так много, требуется много усилий, чтобы проанализировать все эти изображения и составить осмысленное описание того, что нейроны изучают в целом.

MILAN (лингвистические аннотации нейронов, управляемые взаимной информацией) может дать вам хороший описательный текст для этих изображений [17]. Они собрали 52 000 человеческих описаний глубоких зрительных образов, сгенерированных из 17 000 нейронов (7 базовых моделей). Этот набор данных называется MILANNOTATIONS. Хотя эти описания полезны, люди иногда могут быть не описательными, например. не делая различий между полосками и клеткой. При обучении дескриптора модели, чтобы поощрить конкретные описания, они добавили новый термин, который снижает вес общих описаний. Этот дескриптор обобщает архитектуры, общие наборы данных и задачи обучения.

Выживание моделей в «дикой природе»

Дифференциально частная настройка гиперпараметров

Мы слышали о дифференциальном частном обучении, но как насчет настройки гиперпараметров? Является ли утечка конфиденциальности из-за настройки гиперпараметров реальной проблемой? Что ж, Папернот и Стейнке показывают, что это может быть проблемой, потому что гиперпараметры чувствительны к выбросам. В этой статье они показали, что, проводя настройку гиперпараметров со случайным числом испытаний, мы можем достичь дифференциальной конфиденциальности Реньи [18].

Контрастное обучение — что может пойти не так?

Сравнительное обучение играет большую роль в машинном обучении, особенно потому, что оно позволяет нам не полагаться на дорогостоящие человеческие ярлыки. Например, в этом году на ICLR была представлена ​​работа по использованию контрастного обучения для использования частичных меток [19]. Но Карлини и Тарзис предупреждают нас об опасностях контрастного обучения [20]. Есть 2 типа классических атак:

  • Атака отравления: это может проявляться во многих формах. Любая фальсификация данных (изменение характеристик, изменение меток, добавление образцов с неправильными метками и т. д.) считается отравлением.
  • Бэкдор-атака: Обычно это делается путем: 1) добавления артефакта к нескольким образцам и 2) преднамеренного изменения меток этих образцов в качестве другой, заранее определенной целевой метки. При этом любое изображение с артефактом будет классифицироваться как целевая метка.

И плохая новость заключается в том, что, хотя в контролируемом машинном обучении было много работы по преодолению этих атак, в контрастных моделях не так много. Всего около 15 изображений из миллионов данных необходимы для того, чтобы атаки с отравлением были успешными на 50%, как и с атаками с использованием бэкдора [20]. Это очень важно, и необходимо работать над повышением безопасности контрастных моделей, чтобы они были устойчивыми.

Насколько безопасно федеративное обучение?

Продолжая тему атак, знаете ли вы, что при федеративном обучении можно легко получить приватные данные?

Фаул и др. представил модуль «Выходные данные», который может идеально восстанавливать данные в условиях федеративного обучения [21]. С помощью линейного слоя и ReLU они создали идентифицируемые «бункеры», которые могут восстанавливать идентифицируемую информацию о градиенте. На высоком уровне, например, допустим, есть модель с суммированием слоя для набора данных ‹ 0,5 и суммированием другого слоя для набора данных ‹ 0,51. Глядя на разницу, вы можете определить наборы данных, принадлежащие от 0,5 до 0,51. Люди часто думают, что настройка федеративного обучения помогает защитить конфиденциальность данных каждого пользователя. Однако этого недостаточно, особенно когда модель злонамеренно предназначена для получения пользовательских данных. Нам нужна дифференциальная конфиденциальность на уровне пользователя, чтобы помочь защититься от этой атаки.

Заключительные мысли

Надеюсь, вам понравился этот обзор ICLR 2022! Хотя мы охватываем множество тем, есть много других интересных статей по различным темам, таким как метаобучение, применение машинного обучения в различных условиях, обучение с подкреплением и т. д., которые я не рассмотрел в этом обзоре.

Несмотря на то, что это академическая конференция по вычислительной технике, я очень ценю то, как семинары и основные доклады ICLR в этом году выводят возможности машинного обучения за пределы вычислений. Существуют различные дискуссии о том, как применять машинное обучение для развития науки, а также дискуссии о проблемах приложений ML в странах с ограниченными ресурсами, которые напомнили нам о более широкой картине ML.

Упомянутые документы

[1] He, Junxian, et al. На пути к единому представлению о передаче обучения с эффективным использованием параметров. препринт arXiv arXiv:2110.04366 (2021 г.). https://arxiv.org/abs/2110.04366

[2] Ли, Сюэчен и др. Большие языковые модели могут быть сильными дифференциальными частными учениками. препринт arXiv arXiv:2110.05679 (2021 г.). https://arxiv.org/abs/2110.05679

[3] Вей, Джейсон и др. Точно настроенные языковые модели — это нулевой шанс для обучения. препринт arXiv arXiv:2109.01652 (2021 г.). https://arxiv.org/abs/2109.01652

[4] Уайлс, Оливия и др. Детальный анализ сдвига распределения. препринт arXiv arXiv:2110.11328 (2021 г.). https://arxiv.org/abs/2110.11328

[5] Сагава, Шиори и др. Расширение эталона WILDS для адаптации без присмотра. препринт arXiv arXiv:2112.05090 (2021 г.). https://arxiv.org/abs/2112.05090

[6] Чжао, Шэнцзя и др. Сравнение распределений путем измерения различий, влияющих на принятие решений. Международная конференция по обучающим представлениям. 2021. https://openreview.net/forum?id=KB5onONJIAU

[7] Кумар, Ананья и др. Точная настройка может исказить предварительно обученные функции и снизить производительность вне распределения. препринт arXiv arXiv:2202.10054 (2022 г.). https://arxiv.org/abs/2202.10054

[8] Бао, Хангбо, Ли Дун и Фуру Вэй. Бейт: предварительное обучение Берта преобразователям изображений. препринт arXiv arXiv:2106.08254 (2021 г.). https://arxiv.org/abs/2106.08254

[9] Ли, Квонджун и др. Витган: Учебные пистолеты с преобразователями зрения. препринт arXiv arXiv:2107.04589 (2021 г.). https://arxiv.org/abs/2107.04589

[10] Ли, Чуньюань и др. Эффективные преобразователи зрения с самоконтролем для репрезентативного обучения. препринт arXiv arXiv:2106.09785 (2021 г.). https://arxiv.org/abs/2106.09785

[11] Насир, Музаммал и др. Об улучшении враждебной переносимости преобразователей зрения. препринт arXiv arXiv:2106.04169 (2021 г.). https://arxiv.org/abs/2106.04169

[12] Лю, Шижан и др. Pyraformer: пирамидальное внимание низкой сложности для моделирования и прогнозирования долгосрочных временных рядов. Международная конференция по обучающим представлениям. 2021. https://openreview.net/forum?id=0EXmFzUn5I

[13] Сюй, Цзехуэй и др. Преобразователь аномалий: обнаружение аномалий временных рядов с несоответствием ассоциации. препринт arXiv arXiv:2110.02642 (2021 г.). https://arxiv.org/abs/2110.02642

[14] Риад, Рашид и др. Шаги обучения в сверточных нейронных сетях. препринт arXiv arXiv:2202.01653 (2022 г.). https://arxiv.org/abs/2202.01653

[15] Масуми, Ария и др. Объяснения моделей черного ящика на основе направленных взаимодействий функций. Международная конференция по обучающим представлениям. 2021. https://openreview.net/forum?id=45Mr7LeKR9

[16] Эюбоглу, Сабри и др. Domino: обнаружение систематических ошибок с помощью кросс-модальных вложений. препринт arXiv arXiv:2203.14960 (2022 г.). https://arxiv.org/abs/2203.14960

[17] Эрнандес, Эван и др. Описания глубинных визуальных функций на естественном языке. препринт arXiv arXiv:2201.11114 (2022 г.). https://arxiv.org/abs/2201.11114

[18] Папернот, Николя и Томас Стейнке. Настройка гиперпараметров с помощью дифференциальной конфиденциальности Реньи. препринт arXiv arXiv:2110.03620 (2021 г.). https://arxiv.org/abs/2110.03620

[19] Ван, Хаобо и др. PiCO: устранение неоднозначности контрастных меток для частичного обучения меткам. препринт arXiv arXiv:2201.08984 (2022). https://arxiv.org/abs/2201.08984

[20] Карлини, Николас и Андреас Терзис. Отравление и бэкдор контрастного обучения. препринт arXiv arXiv:2106.09667 (2021 г.). https://arxiv.org/abs/2106.09667

[21] Фаул, Лиам и др. Ограбление ФРС: прямое получение личных данных в федеративном обучении с модифицированными моделями. препринт arXiv arXiv:2110.13057 (2021 г.). https://arxiv.org/abs/2110.13057