По заданному изображению предлагаемая сеть CNN-LSTM генерирует подписи к изображениям. Чтобы захватить несколько объектов внутри изображения, функции извлекаются из нижних сверточных слоев, в отличие от предыдущей работы, в которой использовался последний полностью связанный слой. Таким образом, одно изображение представлено множеством функций a_t в разных местах s_t.

LSTM обучается от последовательности к последовательности, где признак a_t в момент времени t из местоположения s_t выбирается и передается в LSTM для генерации слова. Этот процесс повторяется K раз для создания подписи к изображению из K слов.

В этой статье я остановлюсь на стохастическом «жестком» внимании, потому что мягкий вариант тривиален. Я сосредотачиваюсь на математической формулировке статьи, потому что она интересна. Таким образом, результаты и вклады в компьютерное зрение опущены. При «жестком» внимании местоположение s_t с признаком a_t выбирается из многозначного распределения, определенного параметром альфа. Параметр alpha изучается с помощью функции скрытого состояния LSTM h, а функция изображения - f_att (a, h).

Эта хорошая идея интуитивно понятна, потому что на каждом временном шаге в LSTM загружается функция из другого места изображения для генерации соответствующего слова, как показано ниже.

Выборка из многочлена - тривиальный процесс. Например, на рисунке ниже в момент времени t местоположение S_1 более вероятно, чем S_3, S2 и так далее.

Чтобы представить себе, как выполняется выборка в момент времени t, представьте особенности изображения (a_t) как разбросанные по всему изображению точки - синие точки. Учитывая альфа, в момент времени t более вероятно, что некоторые функции будут отобраны и переданы в LSTM. Например, красные особенности более вероятны, чем синие на рисунке ниже.

Тем не менее, выборка в нейронной сети препятствует сквозному обучению. В основном узел выборки является случайным недифференцируемым узлом, поэтому обратное распространение невозможно. Уловка с повторной параметризацией - это типичный обходной путь. По сути, изучается дифференцируемая суррогатная функция для выборки. Рисунок ниже поясняет эту идею. Вместо случайного узла z мы узнаем дифференцируемую функцию z.

В этой статье новая обучаемая функция - L_s. Это функция характеристик a и их местоположения s, f (s, a), которые максимизируют вероятность подписи y изображения.

Градиент этой функции относительно параметров W показан на следующем рисунке. Моделирование Монте-Карло используется для оценки этого градиента путем замены на выбранный s_t.

Базовая линия скользящего среднего используется, чтобы избежать шумного (скачкообразного) градиента в каждом пакете.

Варианты мягкого внимания - это, по сути, взвешенная сумма всех характеристик a с использованием альфа в качестве весов. Поэтому хорошее понимание жесткого варианта сделает мягкий вариант тривиальным.