Paper Notes — Адаптер Vision Transformer для плотных прогнозов

ссылка на документ: https://arxiv.org/abs/2205.08534

Введение

Проблема

ViT может использовать крупномасштабные мультимодальные данные для предварительного обучения, благодаря чему функции, захваченные моделью, имеют более богатую семантику. Но у ViT есть явные недостатки в последующих задачах по сравнению с преобразователями для конкретных задач.

Вдохновленная адаптером в области NLP, эта работа направлена на разработку адаптера, чтобы сократить разрыв между ванильными преобразователями, такими как ViT, и специальными моделями для задач последующего зрения.

В этой структуре магистральная сеть представляет собой общую модель (например, ViT), которую можно предварительно обучить с помощью мультимодальных данных и задач.

При применении к последующим задачам этот адаптер, специфичный для машинного зрения, используется для представления априорной информации о входных данных и задачах в общую основу, что делает модель пригодной для последующих задач.

Таким образом, он может достичь более высокой производительности, чем магистрали-трансформеры, такие как Swin Transformer, специально разработанные для задач плотного прогнозирования.

Связанных с работой

Трансформер

PVT и Swin Transformer достигают превосходной производительности в задачах классификации и плотного прогнозирования, в некоторой степени жертвуя способностью других модальностей к обобщению за счет включения пирамидальной структуры из CNN.
Conformer предложил первую двойную сеть, сочетающую CNN с трансформатором.
BEiT и MAE расширили область применения ViT до самоконтролируемого обучения с моделированием изображений в масках, продемонстрировав мощный потенциал чистой архитектуры ViT.

Декодеры для ViT

SETR — это первая работа, в которой ViT принят в качестве основы и разработаны несколько декодеров CNN для семантической сегментации.
Segmenter также расширяет ViT до семантической сегментации, но отличается тем, что он оснащен декодером на основе преобразователя.
DPT дополнительно применяет ViT к задаче оценки монокулярной глубины с помощью декодера CNN и дает значительные улучшения.

Адаптеры

Адаптеры широко используются в области НЛП.
С появлением CLIP было представлено множество адаптеров на основе CLIP для передачи предварительно обученных знаний в последующие задачи с нулевым или малым числом выстрелов.

Архитектура

Пространственный предварительный модуль

Недавние работы показывают, что свертки с перекрывающимися скользящими окнами могут помочь преобразователям лучше фиксировать локальную непрерывность входных изображений.

Вдохновленные этим, мы вводим в ViT пространственный предварительный модуль на основе свертки, который понижает разрешение входного изображения H×W до различных масштабов (⅛, 1/16, 1/32) с помощью основы, за которой следуют три свертки.

Инжектор пространственных функций

Этот модуль используется для ввода пространственных априорных значений в ViT, получения функции из ViT в качестве запроса и пространственной функции в качестве ключа/значения. Использование перекрестного внимания с несколькими головами для добавления пространственной функции.

Чтобы снизить вычислительные затраты, мы применяем деформируемое внимание, разреженное внимание с линейной сложностью, для реализации уровня внимания.

Кроме того, мы применяем обучаемый вектор γi ∈ RD, чтобы сбалансировать выходные данные слоя внимания и входной признак Fi, который инициализируется 0.

Многомасштабный экстрактор признаков

После введения пространственных априорных значений в ViT мы получаем выходной признак Fi+1, пропуская Fi через слои кодировщика i-го блока. После этого мы меняем местами функцию ViT и пространственную функцию.

Мы вводим сверточную сеть прямой связи (CFFN) после уровня перекрестного внимания. Уровень CFFN улучшает локальную непрерывность признаков посредством свертки по глубине с заполнением нулями.

Эксперименты

Обнаружение объектов и настройка сегментации экземпляров

Обнаружение объектов и сегментация экземпляров выполняются на тесте COCO, а наши коды в основном основаны на MMDetection.
На тренировочном этапе мы используем отягощения DeiT для ViT-T/S/B.
Недавно добавленные модули нашего адаптера инициализируются случайным образом, и предварительно обученные веса не загружаются.
Чтобы сэкономить время и память, мы модифицируем ViT, чтобы использовать внимание окна 14 × 14 в большинстве слоев.
Следуя общепринятым методам, таким как Mask R-CNN, мы используем график обучения 1× или 3× (т. е. 12 или 36 эпох) для обучения детекторов с размером пакета 16 и оптимизатором AdamW с начальной скоростью обучения 1 × 10−4. и распад веса 0,05.

Обнаружение объекта и результат сегментации экземпляра

С помощью нашего адаптера ViT может добиться значительных улучшений в задачах обнаружения объектов и сегментации экземпляров. Например, при тренировочном графике 3×+МС ViT-Adapter-T превосходит PVT-Tiny на 6,2 APb и 3,6 APm, а наш параметр на 15% меньше.

Результаты ViT-Adapter-S на 2,2 APb и 1,2 APm выше, чем у Swin-T с аналогичными размерами модели. Более того, наш ViT-Adapter-B обеспечивает многообещающую точность 49,6 APb и 43,6 APm, превосходя предыдущие современные методы, такие как PVTv2-B5 и Swin-B. Наша лучшая модель ViT-Adapter-L с предварительно обученными весами ImageNet-22K дает 50,9 APb и 44,8 APm, обеспечивая прирост на 2,1 APb и 1,2 APm по сравнению с базовым уровнем.

Настройка семантической сегментации

Мы оцениваем наш ViT-Adapter по семантической сегментации с помощью ADE20K и MMSegmentation. Для полного сравнения мы используем как Semantic FPN, так и UperNet в качестве базовых фреймворков.

Для Semantic FPN мы применяем настройки PVT и обучаем модели на 80 тыс. итераций. Для UperNet мы следуем настройкам Swin, чтобы обучить его на 160 000 итераций. Кроме того, мы инициализируем ViT-T/S/B с выпущенными гирями DeiT, а ViT-L с гирями ImageNet-22K.

Результат семантической сегментации

Мы сообщаем о результатах семантической сегментации с точки зрения одно- и многомасштабного MIOU. Сначала мы рассмотрим семантический FPN, который представляет собой простую и легкую структуру сегментации без сложных конструкций. При сопоставимых размерах моделей наш метод превосходит предыдущие репрезентативные подходы с явным отрывом.

Исследование абляции

Как показано в нижней таблице, наш пространственный априорный модуль и многомасштабный экстрактор признаков улучшают 3,2 APb и 1,6 APm по сравнению с базовым уровнем. По результатам варианта 2 мы обнаружили, что инжектор пространственных признаков приносит улучшения на 0,8 APb и APm, показывая, что информация о локальной непрерывности может повысить производительность ViT в задачах плотного прогнозирования, а процесс ее извлечения может быть отделен от архитектуры ViT.

Кроме того, мы используем CFFN для введения дополнительной информации о местоположении, что дает выигрыш в 0,5 APb и 0,4 APm, устраняя недостатки вложений фиксированного размера, используемых в ViT.

Мы изучаем 4 различных механизма внимания, включая глобальное внимание, внимание окна, линейный SRA и деформируемое внимание.

При использовании глобального внимания в нашем адаптере он исчерпает память графического процессора (32 ГБ) из-за квадратичной сложности. Внимание к окну и линейный SRA могут значительно снизить вычислительные затраты, но они ограничены захватом локальных и глобальных зависимостей соответственно, что приводит к относительно слабым возможностям моделирования.

Заключение

Не изменяя архитектуру ViT, мы предварительно вводим изображение в ViT и извлекаем многомасштабные функции с помощью пространственного априорного модуля, за которым следуют два оператора взаимодействия функций.

Обширные эксперименты по обнаружению объектов, сегментации экземпляров и эталонным тестам семантической сегментации подтверждают, что наши модели могут достигать сравнимой и даже лучшей производительности, чем хорошо спроектированные преобразователи для машинного зрения при сопоставимом количестве параметров.