Абстрактный
Мы используем многоуровневые рекуррентные нейронные сети (RNN) с единицами долговременной кратковременной памяти (LSTM), которые являются глубокими как в пространстве, так и во времени. Наша модель учится выборочно фокусироваться на частях видеокадров и классифицировать видео после нескольких просмотров.
Введение
Модели внимания можно разделить на модели мягкого внимания и модели жесткого внимания. Модели мягкого внимания являются детерминированными и могут быть обучены с использованием обратного распространения, тогда как модели жесткого внимания или путем максимизации вариационной нижней границы или с использованием выборки важности.
В этой статье мы предлагаем рекуррентную модель, основанную на мягком внимании, для распознавания действий. Мы описываем, как наша модель динамически объединяет сверточные функции, и показываем, что использование этих функций для распознавания действий дает лучшие результаты по сравнению со средним или максимальным объединением, которое используется во многих существующих моделях.
Модель и механизм внимания
В этой статье LSTM используется для генерации вероятности местоположения для каждой функции временного шага. Затем модель расставит точки над вероятностью местоположения и функцией следующего временного шага, чтобы предсказать метки классов.
Функция потери
В документе накладывается дополнительное ограничение на softmax местоположения, так что сумма вероятностей местоположения будет равна 1. Это регуляризация внимания, которая заставляет модель смотреть на каждую область кадра в некоторый момент времени.