Трансформеры в понимании видео

Видео повсюду, и со временем их количество только увеличивается. Одним из способов решения проблем, связанных с видео, является использование отдельных кадров для классификации. Эта стратегия не принимает во внимание временные изменения. Исследователи машинного обучения предложили множество решений для работы с пространством и временем, и одним из последних методов является использование преобразователей.

Трансформеры были введены в обработку естественного языка. Сейчас трансформеры почти везде. Будь то изображения или видео, классификация, сегментация или генерация.

Определение понимания видео

Понимание видео означает извлечение изученной информации из стопки кадров. Технически мы называем эту усвоенную информацию пространственно-временной информацией.

Область понимания видео развивалась параллельно с распознаванием изображений. Традиционные архитектуры включают пространственно-временные трехмерные сверточные нейронные сети, которые требуют значительно больше вычислений, чем их аналоги изображений. Другой способ работы с пространственно-временной информацией — извлечение функций с использованием высокоэффективной архитектуры распознавания изображений, которые затем передаются в модели последовательности, такие как LSTM и GRU.

Сегодня мы собираемся узнать о некоторых последних архитектурах преобразователей, используемых для понимания видео.

Трансформатор видеовидения (ViViT)

Арнаб и др., представляют модели на основе трансформаторов для классификации видео.

Их архитектура имеет четыре варианта:

Пространственно-временное внимание

Архитектура пространственно-временного внимания в ViViT извлекает 3D-трубки из стопки кадров и проецирует их с использованием плотных слоев. Остальная часть архитектуры включает в себя позиционное встраивание этих патчей, кодировщик преобразователя и головку многоуровневого персептрона для классификации.

Чтобы объяснить архитектуру, я добавил схему встраивания трубочек из бумаги.

Реализацию фреймворка TensorFlow можно увидеть здесь.

Архитектура имеет квадратичную сложность по количеству входных токенов.

Факторизованный кодировщик

Факторизованный кодировщик имеет два отдельных преобразователя, имеющих независимые пространственные и временные взаимодействия.

Пространственный кодировщик. Только маркеры из кадра учитываются по отношению к другим маркерам в том же кадре. Эти взаимодействия внутри кадра перенаправляются в временной кодировщик после глобального среднего пула или через токен класса.

Временной кодировщик. Токены, извлеченные из пространственного кодировщика, обрабатываются по отношению друг к другу.

Эти независимые пространственно и временно посещаемые маркеры затем направляются в головку многоуровневого персептрона для классификации.

Архитектура факторизованного кодировщика также снижает сложность по сравнению с квадратичной.

Факторизованное внимание к себе

Здесь вместо использования разных кодировщиков-преобразователей, как в прошлой архитектуре, авторы используют независимые пространственные и временные взаимодействия в одном и том же кодере.

Самостоятельное внимание в кодере-преобразователе модифицируется, чтобы сначала находить взаимодействия только в пространстве (в пределах одного кадра), а затем во времени (все пространственно посещаемые маркеры).

Факторизованное скалярное произведение внимания

Спускаясь ниже, здесь мы модифицируем само-внимание, чтобы иметь отдельные головки внимания для пространственных и временных токенов.

Видео Свин Трансформер

Трансформатор Video Swin ограничивает собственное внимание неперекрывающимися локальными окнами, а также допускает межоконные соединения. Делая это, он добавляет индуктивное смещение локальности в архитектуру трансформатора.

ПРЕДЫДУЩЕЕ ВИДЕО ТРАНСФОРМАТОРЫ оценивают внимание к себе глобально, даже с факторизацией по пространственным и временным измерениям.

Индуктивное смещение локальности: Идея о том, что пиксели изображения локально коррелированы и что их карты корреляции не зависят от перевода. [Хорошая статья об индуктивных смещениях в алгоритме ML здесь]

TimeSБывший

Авторы TimeSFormer экспериментируют с различными схемами внутреннего внимания и предполагают, что распределенное внимание приводит к наилучшей точности классификации видео среди рассмотренных вариантов дизайна.

Схема внимания такая же, как и Факторизированное самовнимание в Video Vision Transformer.