* Эта трясина — мой обзор «Пристальный взгляд на пространственно-временные свертки для распознавания действий» и «Переосмысление обучения пространственно-временным характеристикам для понимания видео».

В последнее время я отвечаю за разработку системы обнаружения боя в UmboCV. Это дает мне возможность изучить технику глубокого обучения пониманию видео. В первой половине этого года двухпотоковая модель по-прежнему является современным методом, который объединяет пространственный поток (подпитываемый RGB) и временной поток (подпитываемый оптическим потоком). Однако у этого метода есть два серьезных недостатка. Во-первых, генерация оптического потока происходит медленно, а оптический поток не является необработанной характеристикой данных. Во-вторых, пространственный поток, питаемый только одним RGB, не подходит для понимания видео. Поэтому многие люди с нетерпением ждут модели C3D.

После выпуска набора данных Kinetic у исследователей наконец-то появилось достаточно данных для обучения модели C3D и предотвращения переобучения. В этом блоге в основном будут обсуждаться две недавние статьи из Facebook и Google о новой архитектуре модели C3D, которую они предложили.

В статье «Пристальный взгляд на пространственно-временные свертки для распознавания действий» авторы заявляют, что трехмерное сверточное ядро ​​не является решением для понимания видео. Они предлагают ядро ​​​​R (2 + 1), которое сначала обрабатывает 2D-сверточное ядро ​​для кадров, а затем использует 1D-сверточное ядро ​​​​для временных функций.

Мне нравится эта идея, потому что я верю, что когда человек смотрит видео, он сначала понимает каждый кадр, а затем рассматривает временной ряд каждого кадра. Судя по их результатам, эта модель превзошла производительность двухпоточной модели. Меня это волнует, потому что этот метод даст мне много преимуществ, если мне не придется генерировать оптический поток для производственной системы реального времени.

В другой статье «Переосмысление обучения пространственно-временным характеристикам для понимания видео» обсуждается аналогичное исследование. Исследователи из Google хотят знать, нужно ли вычислять временные характеристики для всех слоев. Они предлагают модель «S3D», которая похожа на R(2+1), но они больше сосредоточены на экспериментах по применению «S3D» только к нижним и верхним слоям.

Мы можем заметить, что верхние слои S3D имеют лучшую производительность. Результат говорит нам о том, что пространственные функции по-прежнему очень важны, и, возможно, временные функции работают только с высокоуровневыми функциями.

Мы можем сказать, что понимание видео является очень популярной темой исследования из недавних активных действий Facebook и Google. Несмотря на то, что кажется, что выполнение задачи распознавания действий все еще далеко от классификации изображений, я полагаю, что примерно через один или два года появится модель понимания видео с классификацией, такая же, как ResNet сегодня.