Возможности ViT как основы обнаружения объектов

В этой статье мы более подробно рассмотрим статью, опубликованную недавно исследователями из Meta AI, в которой автор исследует, как можно переназначить стандартный ViT для использования в качестве основы для обнаружения объектов. Короче говоря, их архитектура обнаружения называется ViTDet.

Необходимое условие: магистрали обнаружения объектов

Раньше магистрали для детекторов объектов использовали разное разрешение на разных этапах сети. Как показано на рисунке выше, карта объектов имеет различное разрешение, от которого значительно выигрывают головки обнаружения, выполняющие фактический шаг обнаружения объекта. Эти магистрали обычно называются иерархическими магистралями в научной литературе. Обычно ResNets или другие CNN называются иерархическими магистральными сетями, но некоторые ViT, такие как Swin Transformer, также имеют иерархическую структуру. Статья, которую мы рассмотрим сегодня, имеет дело с другой базовой структурой: поскольку ViT состоит из определенного количества блоков преобразования, все выходные характеристики которых имеют одинаковую размерность, она никогда не выводит карты характеристик с разными разрешениями естественным образом. Авторы решают эту проблему в своей статье и исследуют различные стратегии построения FPN с несколькими разрешениями.

Создание объектов с несколькими разрешениями на базе одного разрешения

Поскольку ViT, естественно, предоставляет только одно разрешение для своих карт объектов, авторы исследуют, как преобразовать эту карту в разные разрешения с помощью FPN. Чтобы облегчить ограничения памяти и добавить глобальный контекст к выходным данным функции, авторы не вычисляют собственное внимание для всех блоков ViT. Вместо этого они решили разделить трансформатор на 4 равные секции, т.е. для ViT-L с 24 блоками каждая секция составляет 6 блоков. В конце каждого раздела они вычисляют глобальное внимание к себе для раздела, выходные данные которого используются в качестве карты функций для FPN.

Для подхода (а) они пытаются создать решение, подобное FPN, повышая или понижая дискретизацию карты признаков 1/16, используя свертки или деконволюции из отдельных выходных данных глобального внимания каждого раздела. Они также добавляют боковые соединения, визуализированные стрелками, соединяющими синие блоки.

Для подхода (b) они строят FPN, увеличивая и уменьшая масштаб только последней карты признаков из глобального модуля само-внимания. Это означает, что все функции в FPN создаются из одного вывода. Кроме того, они снова добавляют боковые соединения.

Для подхода (c) они предлагают очень простое и лаконичное решение: повышение и понижение дискретизации конечного вывода глобального внимания без добавления каких-либо побочных связей. Этот подход, безусловно, является самым минималистичным, но, как мы сейчас увидим, он работает на удивление хорошо.

Сравнение производительности различных подходов FPN

Давайте приступим прямо к делу!

Примечательно, что простой подход FPN (c) работает лучше всего при двух размерах ViT для регрессии ограничивающей рамки и сегментации экземпляров в тесте обнаружения MS COCO.

Но зачем пытаться использовать такое простое решение, позволяющее использовать обычные ViT в качестве опорных сетей обнаружения, когда уже существуют сети обнаружения на основе ViT? Ответ станет очевиден сейчас.

Сравнение с современными (SOTA) сетями обнаружения ViT

Недавние исследования в области предварительной подготовки с самоконтролем начали раскрывать невероятные возможности ViT. Одной из наиболее многообещающих задач в этой области является вызов сети для восстановления замаскированных частей объекта, реализованных в документе Masked Autoencoders (MAE). Мы пересмотрели эту статью в моем блоге, не стесняйтесь освежить свои знания здесь.

MAE предварительно обучает стандартный ViT учиться восстанавливать замаскированные части изображения. Это оказалось успешной стратегией предварительной подготовки. Чтобы перенести это преимущество на обнаружение объектов, авторы создают архитектуру ViTDet. В этом вся цель документа: раскрыть потенциал предварительной подготовки ViT для обнаружения объектов. И результаты говорят об этом.

Как видно из таблицы результатов, предварительное обучение магистрали с помощью MAE, а затем использование их простого FPN поверх дает результаты SOTA для магистралей обнаружения на основе ViT. Поскольку Swin Transformer и MViT несовместимы со стратегиями предварительного обучения с самоконтролем без модификаций, они предварительно контролируются в ImageNet. Удивительно, но предварительная тренировка MAE обеспечивает гораздо большую производительность, чем стандартная предварительная тренировка под наблюдением. Таким образом, авторы намекают, откуда будут поступать будущие улучшения в исследованиях по обнаружению объектов: не сама архитектура обнаружения, а более мощное предварительное обучение магистрали с самоконтролем.

На мой взгляд, это представляет собой ключевой сдвиг в исследованиях по обнаружению объектов. Если вы хотите узнать больше о смене парадигмы предварительного обучения с самоконтролем в области компьютерного зрения, не стесняйтесь обращаться к моей статье с подробным описанием перехода здесь.

Завершение

Мы изучили архитектуру ViTDet, простую, но мощную модификацию традиционных FPN, особенно ViT, которая раскрывает возможности преобразователей зрения с самоконтролем для обнаружения объектов. Не только это, но и это исследование прокладывает путь для нового направления исследований обнаружения объектов, в котором акцент смещается с архитектуры на технику предварительного обучения.

Хотя я надеюсь, что эта история дала вам хорошее первое представление о ViTDet, еще многое предстоит узнать. Поэтому я бы посоветовал вам прочитать статьи самостоятельно, даже если вы новичок в этой области. С чего-то надо начинать ;)

Если вас интересуют более подробные сведения о методе, представленном в статье, не стесняйтесь, напишите мне сообщение в Твиттере, моя учетная запись связана с моим профилем на Medium.

Надеюсь, вам понравилось это бумажное объяснение. Если у вас есть какие-либо комментарии к статье или вы видите какие-либо ошибки, не стесняйтесь оставлять комментарии.

И последнее, но не менее важное: если вы хотите глубже погрузиться в область передового компьютерного зрения, рассмотрите возможность стать моим последователем. Я стараюсь публиковать истории здесь и там, чтобы держать вас и всех, кто интересуется, в курсе последних новостей в исследованиях компьютерного зрения!

Использованная литература:

[1] Ли, Янхао и др. «Изучение магистральных трансформаторов прямого обзора для обнаружения объектов». препринт arXiv arXiv:2203.16527 (2022).