Абстрактный

Мы используем многоуровневые рекуррентные нейронные сети (RNN) с единицами долговременной кратковременной памяти (LSTM), которые являются глубокими как в пространстве, так и во времени. Наша модель учится выборочно фокусироваться на частях видеокадров и классифицировать видео после нескольких просмотров.

Введение

Модели внимания можно разделить на модели мягкого внимания и модели жесткого внимания. Модели мягкого внимания являются детерминированными и могут быть обучены с использованием обратного распространения, тогда как модели жесткого внимания или путем максимизации вариационной нижней границы или с использованием выборки важности.

В этой статье мы предлагаем рекуррентную модель, основанную на мягком внимании, для распознавания действий. Мы описываем, как наша модель динамически объединяет сверточные функции, и показываем, что использование этих функций для распознавания действий дает лучшие результаты по сравнению со средним или максимальным объединением, которое используется во многих существующих моделях.

Модель и механизм внимания

В этой статье LSTM используется для генерации вероятности местоположения для каждой функции временного шага. Затем модель расставит точки над вероятностью местоположения и функцией следующего временного шага, чтобы предсказать метки классов.

Функция потери

В документе накладывается дополнительное ограничение на softmax местоположения, так что сумма вероятностей местоположения будет равна 1. Это регуляризация внимания, которая заставляет модель смотреть на каждую область кадра в некоторый момент времени.