Мультимодальные методы: подписи к изображениям (от перевода к вниманию)

Недавнее пересечение компьютерного зрения и обработки естественного языка (часть вторая)

Это вторая часть нашей последней серии публикаций, в которой рассматриваются некоторые пересечения между компьютерным зрением (CV) и обработкой естественного языка (NLP). Читателям предлагается просмотреть статью на нашем веб-сайте для лучшего восприятия: http://www.themtank.org/multi-modal-methods

Часть первая: визуальное распознавание речи (чтение по губам)

Часть вторая: подписи к изображениям (от перевода к вниманию)

Отзывы и комментарии приветствуются либо через среду, либо напрямую на [email protected].

Если вам нравится наша работа, не стесняйтесь подписываться, делиться и аплодировать нашей команде. Спасибо за чтение!

Часть вторая: подписи к изображениям (от перевода к вниманию)

Рисунок 11. Некоторые примеры подписей к изображениям.

Введение в субтитры к изображениям

Предположим, мы попросили вас подписать изображение; то есть описать изображение с помощью предложения. Это, когда это делается с помощью компьютеров, является целью исследования субтитров к изображениям. Для обучения сети точному описанию входного изображения путем вывода предложения на естественном языке.

Само собой разумеется, что задача описания любого изображения находится в диапазоне сложности. Некоторые изображения, такие как изображение собаки, пустого пляжа или вазы с фруктами, могут относиться к более легкой части спектра. При описании изображений сложных сцен, требующих особого понимания контекста - и для того, чтобы делать это хорошо, а не просто сносно - становится гораздо сложнее создавать субтитры. Предоставление контекстной информации сетям долгое время было камнем преткновения и четкой целью для исследователей.

Подписи к изображениям интересны для нас, потому что они касаются того, что мы понимаем в восприятии машин. Постановка проблемы требует как понимания того, какие функции (или пиксельный контекст) представляют какие объекты, так и создания семантической конструкции, «привязанной» к этим объектам.

Когда мы говорим об заземлении, мы имеем в виду нашу способность абстрагироваться от специфики и вместо этого понимать, что этот объект / сцена представляет на общем уровне. Например, мы можем говорить с вами о собаке, но все мы представляем в уме другую собаку, и все же мы можем основывать наш разговор на том, что является общим для собаки, и двигаться вперед. Установление этого заземления для машин известно как проблема языкового заземления.

Эти идеи также развиваются в соответствии с объяснимостью результатов. Если языковой уровень достигнут, сеть сообщает мне, как было принято решение. В подписи к изображениям сеть требуется не только для классификации объектов, но вместо этого для описания объектов (включая людей и вещи) и их отношений в данном изображении. Следовательно, как мы увидим, механизмы внимания и обучение с подкреплением находятся в авангарде последних достижений - и их успех может однажды снизить непрозрачность процесса принятия решений, которая вредит другим областям исследований искусственного интеллекта.

Мы подумали, что читателю может быть полезно описание приложений для создания субтитров к изображениям, которых несколько. В целом, подписи к изображениям могут принести пользу области поиска, позволяя нам по-новому сортировать и запрашивать графическое или графическое содержимое. Вероятно, есть также множество возможностей улучшить качество жизни для слабовидящих с помощью аннотаций в реальном времени или иным образом. Однако мы придерживаемся мнения, что субтитры к изображениям - это гораздо больше, чем просто сумма их непосредственного применения.

Отображение пространства между изображениями и языком, по нашей оценке, может найти отклик в более глубоком русле прогресса. Что, будучи обнаруженным, потенциально может привести к созданию сложных в контексте компьютеров. И, как мы уже отмечали ранее, предоставление контекстных знаний машинам, вероятно, может стать одним из ключевых столпов, которые в конечном итоге поддержат способность ИИ понимать мир и рассуждать о нем, как это делают люди.

Вкратце о подписях к изображениям: для создания сетей, способных улавливать тонкости контекста в изображениях, связывать наблюдения как с сценой, так и с реальным миром и выводить краткие и точные описания изображений; все задачи, которые мы, как люди, можем выполнять почти без усилий.

Подписи к изображениям (около 2014 г.)

Исследования в области создания подписей к изображениям проводились уже несколько лет, но эффективность методов была ограниченной, и они, как правило, не были достаточно надежными, чтобы справиться с реальным миром. Во многом из-за ограничений эвристики или приближений для отношений слово-объект [52] [53] [54]. Однако в 2014 году ряд известных лабораторий искусственного интеллекта начали выпускать новые подходы, использующие глубокое обучение для повышения производительности.

Первой работой, насколько нам известно, по применению нейронных сетей к проблеме субтитров изображений, была работа Kiros et al. (2014a) [55], которые предложили многослойный перцептрон (MLP), который использует группу векторов представления слов, смещенных на особенности изображения, то есть само изображение обусловливает лингвистический вывод. Хронология этого и других достижений исследовательских лабораторий была настолько сжатой, что оглядываясь назад, кажется, что это настоящий взрыв интереса. Эти новые подходы в целом;

Загрузите изображение в сверточную нейронную сеть (CNN) для кодирования и запустите это кодирование в рекуррентную нейронную сеть декодера (RNN) для генерации выходного предложения. Сеть выполняет обратное распространение на основе ошибки выходного предложения по сравнению с основным предложением истинности, вычисленным с помощью функции потерь, такой как перекрестная энтропия / максимальная вероятность. Наконец, для оценки алгоритма можно использовать метрику оценки схожести предложений.

Одним из таких показателей оценки является алгоритм Bilingual Evaluation Understudy, или оценка BLEU. Оценка BLEU была получена в результате работы над машинным переводом, где субтитры к изображениям черпают вдохновение; а также от ранжирования / поиска изображений и распознавания действий. Понимание базовой оценки BLEU довольно интуитивно.

Для данного фрагмента текста получается набор высококачественных человеческих переводов, и машинный перевод сравнивается с этими человеческими базовыми линиями, раздел за разделом на уровне н-граммов [56]. Обычно результат 1 полностью совпадает с переводом, выполненным человеком, а 0 означает, что полученное предложение полностью не связано с основной истиной. Наиболее характерными для машинного перевода и субтитров изображений являются: BLEU 1-4 (n-грамм с n = 1-4), CIDEr [57], ROUGE_L [58], METEOR [59]. Эти подходы очень похожи в том, что они измеряют синтаксическое сходство между двумя частями текста, в то время как каждая метрика оценки разработана так, чтобы в некоторой степени коррелировать с человеческим суждением.

Однако в заголовках изображений переводы заменяются описаниями изображений или подписями. Но оценки BLEU по-прежнему рассчитываются как результат на основе аннотированных подписей. Следовательно, для оценки производительности созданные сетью подписи сравниваются с корзиной подписей, написанных человеком.

В прошлом мы отмечали огромное влияние новых наборов данных на области исследований в области ИИ. Появление в 2014 году набора данных Общие объекты в контексте (COCO) [60] ознаменовало один такой сдвиг в подписи к изображениям. COCO позволил глубоким нейронным сетям с интенсивным использованием данных изучить отображение изображений в предложения. И, учитывая сравнительно большой набор данных изображений с множеством описаний этих изображений, сделанных людьми, в сочетании с новыми, умными архитектурами, способными обрабатывать ввод изображений и вывод на язык; Теперь стало возможным обучать глубокие нейронные сети для сквозных субтитров к изображениям с помощью таких методов, как обратное распространение.

Перевод изображений в описания

В машинном переводе довольно часто используются модели последовательность-последовательность [61]. Эти модели работают, генерируя представление через RNN на основе входной последовательности, а затем передавая это выходное представление во вторую RNN, которая генерирует другую последовательность. Этот механизм был особенно эффективен с чат-ботами, позволяя им обрабатывать представление входного запроса и генерировать последовательный ответ, связанный с входной последовательностью (предложением).

Рисунок 12: модель "последовательность-последовательность".

CNN могут кодировать абстрактные элементы из изображений. Затем их можно использовать для классификации, обнаружения объектов, сегментации и множества других задач [63]. Возвращаясь к понятию одновременных успехов в 2014 году, Виньялс и др. (2014) [64] успешно использовали модель последовательность-последовательность, в которой типичный кодировщик LSTM [65] был заменен на CNN. В своей статье под названием Показать и рассказать: генератор заголовков нейронных изображений CNN берет входное изображение и генерирует представление признака, которое затем передается в декодер LSTM для генерации выходного предложения (см. рис.13).

Рисунок 13: кодировщик CNN для декодера LSTM

Еще несколько подробностей о том, как генерируется предложение. На каждом шаге RNN распределение вероятностей следующего слова выводится с использованием softmax. В зависимости от ситуации, немного наивным подходом было бы брать слово с наибольшей вероятностью на каждом шаге после извлечения выходных данных из RNN. Однако поиск по лучу - это еще один метод, который представляет собой лучший подход для построения предложений. Путем поиска по определенным комбинациям слов и создания различных возможных выходных данных, поиск по лучу создает целое предложение, не слишком полагаясь на какое-либо отдельное слово из тех, которые RNN может генерировать на любом конкретном временном шаге. Таким образом, поиск с помощью луча может ранжировать множество различных предложений в соответствии с их совокупной или целостной вероятностью.

Рисунок 14: пример поиска луча

Например, на первом этапе вывода предсказания слова можно вывести предложение с более высокой вероятностью, выбрав слово с более низкой вероятностью, чем слово с самым высоким. Более подробное объяснение поиска луча для генерации предложения, то есть относящееся к декодирующей части нашего примера выше, можно найти здесь [67].

Дальнейшая одновременная работа

Примерно в то время, когда появился Покажи и расскажи, похожий, но отличный подход был представлен Донахью и др. (2014): Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания [68]. Вместо того, чтобы просто использовать LSTM для кодирования вектора, как это обычно делается в моделях последовательность-последовательность, представление объекта выводится посредством CNN, в данном случае VGGNet [69], и представлен в декодер LSTM. Эта работа также была успешно применена к субтитрам к видео, естественному продолжению субтитров к изображениям.

Основным вкладом в эту работу была не только эта новая установка соединения между кодером CNN и декодером LSTM [70], но и обширный набор экспериментов, в которых LSTM складывались в стек, чтобы опробовать различные шаблоны соединения. Команда также оценивает поиск луча по их собственному методу случайной выборки, а также с использованием CNN, обученной на ImageNet, или дальнейшей тонкой настройки предварительно обученной сети для конкретного используемого набора данных [71].

Углубляемся в мультимодальный подход

От подписей к визуальным концепциям и обратно, Фанг и др. (2014) [72], полезно для объяснения многомодальности достижений 2014 года. Хотя в отличие от подходов Виньялса и соавт. (2014) [73] и Донахью и др. (2014) [74], статья представляет собой эффективное сочетание некоторых из этих идей [75]. Для читателей рабочий процесс процесса создания субтитров может по-новому оценить модульность этих подходов.

Рисунок 15. Создание подписей на основе визуальных концепций.

(I) Обнаружение слов

Для начала, из CNN можно выжать больше информации, которую легче интерпретировать. Присмотревшись к тому, как люди выполнят задачу, они заметят важные объекты, части и семантику изображения и свяжут их в глобальном контексте изображения. Все, прежде чем пытаться составить из слов связное предложение. Точно так же, вместо того, чтобы «просто» использовать закодированное векторное представление изображения, мы можем добиться лучших результатов, комбинируя информацию, содержащуюся в нескольких областях изображения.

Используя CNN обнаружения слов, который генерирует ограничивающие рамки, аналогичные тем, что делает CNN обнаружения объектов, различные области изображения могут получать оценки для многих отдельных объектов, сцен или характеристик, которые соответствуют словам в заранее определенном словаре (который включает около 1000 слов ).

(II) Формируйте предложения

Затем вероятность совпадения дескрипторов изображения (обнаружений) анализируется согласно статистически предопределенной языковой модели. Например. если область изображения классифицируется как лошадь, эта информация может использоваться как предварительная, чтобы дать более высокую вероятность действия бег по разговору для вывода с субтитрами изображения. Это в сочетании с поиском луча дает набор выходных предложений, которые повторно ранжируются с помощью глубокой многомодальной модели подобия (DMSM) [76].

(III) Изменение ранжирования предложений

Здесь вступает в игру мультимодальная независимость. DMSM использует две независимые сети: CNN для получения векторного представления изображения (VGG) и архитектуру CNN с явным использованием. Сеть кодирования изображений основана на детекторе обученных объектов из предыдущего раздела с добавлением набора полностью связанных слоев, которые должны быть обучены этой задаче повторного ранжирования. Вторая CNN предназначена для извлечения векторного представления из данного предложения на естественном языке, которое имеет тот же размер, что и вектор, сгенерированный CNN, кодирующим изображение. Это эффективно позволяет отображать язык и изображения в одном и том же пространстве функций.

Поскольку изображение и закодированное предложение представлены как векторы с одинаковым размером, обе сети обучены минимизировать косинусное сходство между изображением и наземными подписями для данного изображения, а также увеличить разницу с помощью набора нерелевантных подписей. предоставлена.

Во время фазы вывода набор выходных предложений, сгенерированных из языковой модели с поиском луча, повторно ранжируется с сетями DMSM и сравнивается друг с другом. Заголовок с наибольшим косинусным сходством выбирается в качестве окончательного прогноза.

Плотные субтитры и механизмы доведения до внимания (около 2015 г.)

Значительные улучшения в детекторах ограничивающих рамок, таких как RCNN, а также успех BiRNN [77] в переводе, привели к другому подходу, теоретически аналогичному DMSM для оценки предложений, представленному ранее. А именно, что можно использовать две независимые сети, одну для текста и одну для областей изображения, которые создают представление в одном и том же пространстве изображения-текста. Пример такого подхода можно увидеть в работе Karpathy и Fei-Fei (2015) [78].

Глубокое визуально-семантическое выравнивание для создания описания изображения [79], в котором используется вышеупомянутый подход CNN + RNN для генерации подписей, возможно, наиболее ответственен за популяризацию подписей к изображениям в средствах массовой информации. Большая часть статей о субтитрах к изображениям, как правило, заимствована из своих превосходных примеров изображений с субтитрами.

Но более впечатляющими, чем привлечение внимания публики своими исследованиями, были успехи, достигнутые Джонсоном, Карпати и Фей-Фей позже в том же году - в DenseCap: полностью сверточные сети локализации для плотных субтитров [80] .

Рисунок 16: плотные субтитры и надписи

Ранее мы отмечали, что запуск CNN в RNN позволяет выводить характеристики изображения и, следовательно, информацию о нем в терминах естественного языка. Кроме того, усовершенствования RCNN вдохновили DenseCap на использование сети региональных предложений для создания сквозной модели для субтитров с сокращением времени прямого вычисления с 50 до 0,2 с с использованием Faster-RCNN [ 82 ].

Благодаря этим техническим усовершенствованиям Johnson et al. (2015) задали вопрос: почему мы описываем изображение с помощью одной подписи, когда мы можем использовать разнообразие подписей в каждой интересующей области для создания нескольких подписей с более точным описанием, чем дает отдельная подпись изображения?

Авторы вводят разновидность задачи создания подписей к изображениям, которая называется плотные подписи, где модель описывает отдельные части изображения (обозначенные ограничивающими рамками). Такой подход дает результаты, которые могут быть более актуальными и точными по сравнению с подписью всего изображения одним предложением.

Проще говоря, этот метод похож на обнаружение объекта, но вместо вывода одного слова он выводит предложение для каждого ограничивающего прямоугольника в данном изображении. Их модель также может быть перепрофилирована для поиска изображений, например «найди мне картинку, на которой кошка катается на скейтборде». Таким образом, мы видим, что связь между извлечением изображения и его подписью, естественно, довольно обычна.

Рисунок 17: плотные субтитры в действии

Мы заметили улучшения в потоке информации в RNN, а также в использовании нескольких ограничивающих рамок и подписей. Однако, если бы мы поставили себя на место подписчика, как бы мы выбрали подходящую подпись (и)? Что вы в конечном итоге сочли бы важным или проигнорировали в подписи к изображению? На что бы вы обратили внимание?

Введите Показать, посетить и рассказать: создание подписи к нейронным изображениям с визуальным вниманием, автор - Xu et al. (2015) [83] - первая работа, насколько нам известно, в которой понятие внимания вводилось в подписи к изображениям. Работа основана на применении внимания в других задачах последовательности и распознавания образов. Основываясь на плодотворной работе Kiros et al. (2014a; 2014b) [84] [85], который включил первые нейронные сети в подходы к субтитрам изображений, впечатляющая исследовательская группа Xu et al. (2015) [86] впервые внедряют жесткое и мягкое внимание в подписи к изображениям.

В данном контексте внимание как метод относится к способности по-разному взвешивать области изображения. В широком смысле это можно понимать как инструмент, позволяющий направить распределение доступных ресурсов обработки на наиболее информативные части входного сигнала. Вместо того, чтобы резюмировать изображение в целом, с вниманием сеть может придать больший вес «заметным» частям изображения. Кроме того, для каждого выведенного слова сеть может повторно вычислить свое внимание, чтобы сосредоточиться на другой части изображения.

Есть несколько способов привлечь внимание, но Xu et al. (2015) разделяют изображение на сетку регионов после извлечения признаков CNN и создают по одному вектору признаков для каждой. Эти функции используются по-разному для мягкого и жесткого внимания:

В варианте с мягким вниманием вектор признаков каждой области получает вес (можно интерпретировать как вероятность фокусировки в этом конкретном месте) на каждом временном шаге декодирования RNN, что означает относительную важность этой области для генерации следующего слова. . MLP (за которым следует softmax), который используется для вычисления этих весов, является детерминированной частью вычислительного графа и, следовательно, может быть обучен сквозным образом как часть всей системы, используя обратное распространение, как обычно.
При пристальном внимании только одна область отбирается из векторов признаков на каждом временном шаге для генерации выходного слова (с использованием вероятностей, рассчитанных аналогично тому, как упоминалось ранее). Это предотвращает обучение сети путем обратного распространения ошибки из-за стохастичности выборки.

Вместо этого обучение завершается с использованием окончательной потери / вознаграждения (полученной из выбранной траектории выбранных регионов) в качестве приближения к ожидаемому вознаграждению, которое будет получено из MLP, которое, что наиболее важно, затем может быть использовано для расчета градиентов. Тот же самый MLP снова используется для вычисления этих вероятностей [87]. Идея выборки траектории внимания в качестве оценки была взята из алгоритма обучения с подкреплением под названием REINFORCE [88]. Следующая часть этой публикации будет посвящена изучению с подкреплением, применяемому к подписи к изображениям различными способами и более подробно.

Рисунок 18: внимание в действии

Привлечение внимания позволяет декодеру сосредоточиться на определенных частях входного представления для каждого из выведенных слов. Это означает, что при преобразовании аспектов изображения в подписи сеть может выбрать где и когда для фокусировки отношение к конкретным словам, выводимым во время генерации предложения. Такие методы не только улучшают производительность сети, но и способствуют интерпретируемости; мы лучше понимаем, как сеть определила свой ответ. Как мы увидим, популярность механизмов внимания выросла с момента их появления.

Варианты внимания и интерпретируемость

Внимание и его варианты бывают разных форм: семантическое внимание, пространственное внимание и многослойное внимание. Жесткий, мягкий, восходящий, нисходящий, пространственный, адаптивный, визуальный, с текстовыми подсказками и т. Д. Мы чувствуем, что внимание, будучи более новой техникой решения многомодальных проблем, может быть в некоторой степени революционным.

Такие методы не только позволяют нейронным сетям решать ранее непреодолимые проблемы, но также помогают интерпретировать сети; ключевая область интересов, поскольку ИИ проникает в наши общества. Для тех, кто желает узнать больше о внимании, помимо ограниченных областей, которые мы затрагиваем, есть отличная статья о дистилляции из Olah and Carter (2016) [89], доступная здесь, и еще одна от Denny Britz (2016) [90] доступны здесь.

Внимание может позволить нашу проверку и отладку сетей. Он может предоставить функциональную информацию, то есть, какие части изображения сеть «просматривает». Как мы увидим, каждая форма внимания имеет свои уникальные характеристики.

Подпись к изображениям с семантическим вниманием (You et al., 2016) [91]
You et al. (2016) отмечают, что традиционные подходы к подписи к изображениям - это либо 'сверху вниз, переходя от сути изображения, которое преобразуется в слова, либо снизу вверх, которые генерируют слова, описывающие различные аспекты изображения, а затем объединяют их '[92]. Однако их вклад заключается во внедрении нового алгоритма, который сочетает в себе оба вышеупомянутых подхода и учится выборочно посещать. Это достигается с помощью модели семантического внимания, которая объединяет семантические концепции и характерное представление изображения / кодировки.

Семантическое внимание относится к технике сосредоточения на семантически важных концепциях, то есть объектах или действиях, которые являются неотъемлемой частью построения точной подписи к изображению. В пространственном внимании основное внимание уделяется интересующим областям; но семантическое внимание связывает внимание с ключевыми словами, используемыми в подписи по мере ее создания.

По собственному признанию авторов, существует несколько важных различий между использованием ими семантического внимания и предыдущими вариантами использования подписей к изображениям. Сравнивая эту работу с Xu et al. (2015) [93], их алгоритм внимания учится обращать внимание на определенные словесные концепции, обнаруженные в изображении , а не слов, определенных в определенных пространственных точках. Важно отметить, что некоторые понятия или слова могут не иметь прямого отношения к определенному региону, например слово захватывающий, которое может охватывать все изображение. Это справедливо даже для концепций, которые не видны непосредственно на изображении, и их можно расширить с помощью использования данных внешнего изображения для обучения дополнительных визуальных концепций, а также внешних текстовых данных для изучения семантики между словами [94].

Рисунок 19: структура семантического внимания.

Далее мы представляем концепцию адаптивного внимания от Лу и др. (2017) [96]. Знание, когда искать: адаптивное внимание с помощью визуального Sentinel для подписи к изображениям разработало новые тесты для современных наборов данных COCO и Flickr30K. Вместо того, чтобы заставлять визуальное внимание быть активным для каждого сгенерированного слова, Лу и др. (2017) считают, что определенные слова в предложении не имеют отношения к изображению, например the, of и т. Д. Благодаря использованию визуального индикатора модель узнает , когда использовать внимание. Адаптивное внимание также может варьировать количество внимания, уделяемого каждому слову.

Визуальный дозорный классифицируется как скрытое представление того, что декодеру уже известно. Как расширение модели пространственного внимания, он определяет, должна ли модель присутствовать, чтобы предсказать следующее слово. Мы упоминали, что такие слова, как «а», «оно» и «из», могут рассматриваться как не заслуживающие внимания; но такие слова, как «мяч», «человек» и «жираф», заслуживают внимания не только в определенный момент времени (часовой), но и в определенной части изображения (в пространстве).

На каждом временном шаге наша модель решает, уделять ли внимание изображению (и если да, то каким областям) или визуальному сигналу. Модель решает, следует ли обращать внимание на изображение и где, чтобы извлечь значимую информацию для последовательной генерации слов [ 97 ].

Рисунок 20. Визуализация создания подписи.

Еще одна интересная статья - это SCA-CNN: Пространственное и канальное внимание в сверточных сетях для субтитров к изображениям от Chen et al. (2017) [99]. Авторы изо всех сил стараются использовать пространственное, семантическое, многослойное и многоканальное внимание в своей архитектуре CNN, одновременно мягко предостерегая от использования традиционных механизмов пространственного внимания.

Внимание обычно применяется пространственно к последнему слою, выведенному кодировщиком CNN, обрабатывая все каналы одинаково, чтобы вычислить, на чем следует сосредоточить внимание, то есть обычная модель внимания генерирует выходные предложения, обращаясь только к определенным пространственным областям в конечном сверточном слое.

Стоит отметить, что каждый фильтр CNN работает как детектор паттернов, а каждый канал карты признаков в CNN является ответной активацией соответствующего сверточного фильтра. Следовательно, применение механизма внимания по каналам можно рассматривать как процесс выбора семантических атрибутов [ 100 ].

«Особенности CNN являются естественными пространственными, канальными и многослойными», и авторы «в полной мере используют этот естественный дизайн, уделяя внимание нескольким уровням в CNN и отдельным каналам в каждом слое. .

Их подход был применен к обычным наборам данных Flick8k, Flickr30k и COCO, и был проведен тщательный анализ различных вариантов внимания. Авторы отмечают улучшения показателей как за счет комбинаций вариантов внимания, так и за счет одного типа, например Пространственный против канала против пространственного + канала. Они также меняют количество конечных уровней, которым должна уделять внимание сеть (1–3), и расширяют это до различных экстракторов признаков, например сеть VGG (с обслуживаемыми слоями, выбираемыми из сверточных слоев «conv5_4, conv5_3 или conv5_2») или ResNet.

Команда TencentVision в настоящее время возглавляет таблицу лидеров COCO по субтитрам. [101] Согласно таблице лидеров, их описание записи гласит множественное внимание и RL. При сравнении с исходной статьей следует сделать вывод, что подход, включающий методы обучения с подкреплением, представляет собой вариацию исходного подхода. Однако нам пока не удалось найти публикации с подробным описанием этих дополнений [102].

В 2017 году Внимание к изображениям и визуальным ответам на вопросы снизу вверх и сверху вниз от Anderson et al. (2018) [103] предложили более естественный метод внимания, вдохновленный нейробиологией. В другой статье, которая действительно исследует разницу между вниманием снизу вверх и сверху вниз, авторы глубоко исследуют внимание и представляют метод эффективного объединения информации из обоих типов.

В зрительной системе человека внимание может быть сфокусировано произвольно нисходящими сигналами, определяемыми текущей задачей (например, поиск чего-либо), и автоматически восходящими сигналами, связанными с неожиданными, новыми или значительными стимулами [ 104].

Следуя этому определению, восходящее внимание применяется к набору конкретных пространственных местоположений, которые генерируются CNN обнаружения объектов. Эти заметные пространственные области обычно определяются сеткой на изображении, но здесь они вычисляют восходящее внимание по всем ограничивающим прямоугольникам, где сеть обнаружения находит интересующую область. В частности, каждая интересующая область взвешивается по-разному с помощью коэффициента масштабирования / альфа, и они суммируются в новый вектор, который передается в языковую модель LSTM [105].

С другой стороны, внимание сверху вниз использует LSTM с визуальной информацией [106], а также ввод контекста для конкретной задачи, чтобы генерировать собственное взвешенное значение этих функций. Ранее сгенерированное слово, скрытое состояние из языковой модели LSTM и характеристики изображения, усредненные по всем объектам, используются для генерации вывода внимания сверху вниз.

Используя ту же методологию внимания, Anderson et al. (2018) удалось добиться успехов в двух разных задачах, а именно в создании субтитров для изображений и VQA [107]. Их подход в настоящее время занимает второе место в таблице лидеров COCO по субтитрам [108], достигая результатов SOTA на тестовом сервере MSCOCO с оценками CIDEr / SPICE / BLEU-4, равными 117,9, 21,5 и 36,9 соответственно [109].

Продемонстрировав широкую применимость метода, применив тот же подход к VQA, мы заняли первое место в конкурсе VQA Challenge 2017 [110].

Хотя внимание и его варианты представляют собой довольно большой объем впечатляющих работ, в конце концов мы обратимся к нашим, ограниченным пространством, двум нашим любимым на сегодняшний день исследованиям:

MAT: мультимодальный внимательный переводчик субтитров к изображениям от Liu et al. (2017) [111]. Лю и др. (2017) решили передать входное изображение как последовательность обнаруженных объектов в RNN для генерации предложения, в отличие от предпочтительного подхода, когда все изображение закодировано CNN в представление фиксированного размера. Они также вводят последовательный уровень внимания, который учитывает все закодированные скрытые состояния при генерации каждого слова.

Для последовательного представления изображения мы извлекаем характеристики объекта на изображении и располагаем их в определенном порядке с помощью сверточных нейронных сетей. Для дальнейшего использования визуальной информации от закодированных объектов вводится уровень последовательного внимания, чтобы выборочно обращать внимание на объекты, связанные с генерацией соответствующих слов в предложениях [ 112 ].

Текстовая модель внимания для подписей к изображениям, от Mun et al. (2016) [113], предлагает модель, которая сочетает в себе визуальное внимание с указанием связанного языка текста, то есть во время обучения они используют обучающую подпись, чтобы помочь модели обратить внимание на исправлять вещи визуально. Их модель также может использовать предложения лучших кандидатов во время тестирования, чтобы также направлять внимание. Этот метод, кажется, хорошо справляется с загроможденными сценами.

Насколько нам известно, предлагаемый метод является первой работой для создания подписей к изображениям, которая сочетает в себе визуальное внимание с указанием соответствующего языка текста [114].

использованная литература

[51] Лу и др. (2017). Зная, когда смотреть: адаптивное внимание с помощью визуального сторожа для подписи к изображениям. [Онлайн] arXiv: 1612.01887. В наличии: arXiv: 1612.01887v2
[52] Kiros et al. (2014a): В отличие от многих существующих методов, наш подход позволяет генерировать описания предложений для изображений без использования шаблонов, структурированного прогнозирования и / или синтаксических деревьев.
[53] Фархади и др. (2010). Каждая картинка рассказывает историю: создание предложений из изображений. In: Daniilidis K., Maragos P., Paragios N. (eds) Computer Vision - ECCV 2010. ECCV 2010. Lecture Notes in Computer Science, vol 6314. Springer, Berlin, Heidelberg. Доступно: https://www.cs.cmu.edu/~afarhadi/papers/sentence.pdf
[54] Kulkarni et al. (2013). BabyTalk: понимание и создание простых описаний изображений. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, декабрь. Доступно: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6522402
[55] Kiros et al. (2014a). Мультимодальные нейронные языковые модели. Материалы 31-й Международной конференции по машинному обучению, PMLR 32 (2): 595–603. Доступно: http://proceedings.mlr.press/v32/kiros14.html
[56] N-граммы относятся к разбиению последовательности текстовых данных на последовательные группы символов (например, слова или буквы). Например, в слове биграммы (n = 2) предложение Человек верхом на лошади разбивается на Мужчина, Человек едет, едет верхом и т. Д. Затем они могут использоваться с помощью конкретных показателей оценки. которые дают более высокие баллы за выходные предложения, в которых больше слов в том же порядке, что и основная истина.
[57] Vedantam et al. (2014). CIDEr: Оценка описания изображения на основе консенсуса. [Онлайн] arXiv: 1411.5726. В наличии: arXiv: 1411.5726v2 (версия 2015 г.).
[58] ROUGE расшифровывается как Помощник по отзыву, ориентированный на отзыв при оценке листинга - Lin, C.Y. (2004). ROUGE: Пакет для автоматической оценки резюме. Семинар по разветвлениям обобщения текстов, семинар после конференции ACL 2004, Барселона, Испания. Доступно: http://www.aclweb.org/anthology/W04-1013
[59] Банерджи, С., Лави, А. (2005). METEOR: автоматическая метрика для оценки MT с улучшенной корреляцией с человеческими суждениями. [Онлайн] Институт языковых технологий Университета Карнеги-Меллона (www.cs.cmu.edu). Доступно: https://www.cs.cmu.edu/~alavie/papers/BanerjeeLavie2005-final.pdf
[60] Cocodataset.org. (2018) COCO: Общие объекты в контексте. [Сайт] http://cocodataset.org/. Доступно: http://cocodataset.org/#captions-challenge2015
[61] Суцкевер и др. (2014). Последовательность для последовательного обучения с помощью нейронных сетей. [Онлайн] arXiv: 1409.3215. В наличии: arXiv: 1409.3215v3
[62] Бритц Д. (2016). Глубокое обучение для чат-ботов, часть 1 - Введение. [Блог] WildML (http://www.wildml.com/). Доступно: http://www.wildml.com/2016/04/deep-learning-for-chatbots-part-1-introduction/
[63] О бесстыдном саморекламе см. Предыдущий отчет: Год компьютерного зрения. Доступно: http://www.themtank.org/a-year-in-computer-vision
[64] Виньялс и др. (2014). Покажи и расскажи: генератор титров нейронных изображений. [Онлайн] arXiv: 1411.4555. В наличии: arXiv: 1411.4555v2
[65] LSTM (долговременная память): разновидность рекуррентной нейронной сети (RNN).
[66] Geeky - это круто. (2016). Использование лучевого поиска для генерации наиболее вероятного предложения. [Блог] Geeky - это круто (geekyisawesome.blogspot.ie). Доступно: https://geekyisawesome.blogspot.ie/2016/10/using-beam-search-to-generate-most.html
[67] там же
[68] Донахью и др. (2014). Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания. [Онлайн] arXiv: 1411.4389. В наличии: arXiv: 1411.4389v4 (версия 2016 г.)
[69] Групповая сеть визуальной геометрии (VGGNet), тип нейронной сети, названной в честь исследовательской группы, которая ее создала.
[70] Этот тип архитектуры также был протестирован Виньялсом и др. (2014) в своей статье безуспешно.
[71] Тонкая настройка - это обычная практика, которая состоит из обучения сначала на более обширном / более крупном наборе данных (т.е. предварительное обучение), а затем повторного обучения на целевом наборе данных, поскольку общность функций, изученных на первом наборе данных, часто может быть использованы и переданы в некоторой степени в целевой набор данных.
[72] Fang et al. (2014). От титров к визуальным концепциям и обратно. [Онлайн] arXiv: 1411.4952. В наличии: arXiv: 1411.4952v3 (версия 2015 г.)
[73] Виньялс и др. (2014). Покажи и расскажи: генератор титров нейронных изображений. [Онлайн] arXiv: 1411.4555. В наличии: arXiv: 1411.4555v2 (версия 2015 г.).
[74] Донахью и др. (2014). Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания. [Онлайн] arXiv: 1411.4389. В наличии: arXiv: 1411.4389v4 (версия 2016 г.)
[75] Интересно, что, хотя авторы в основном являются представителями Microsoft Research, вклад также был сделан исследователями из Facebook AI Research (FAIR) и Google.
[76] Fang et al. (2014). От титров к визуальным концепциям и обратно. [Онлайн] arXiv: 1411.4952. Доступно: https://arxiv.org/abs/1411.4952v3 (версия 2015 г.).
[77] Для получения дополнительной информации см. Часть первая: Визуальное распознавание речи (чтение по губам). Средний: https://medium.com/mlreview/multi-modal-methods-part-one-49361832bc7e
[78] Карпаты, А., Фей-Фей, Л. (2015). Глубокие визуально-семантические согласования для создания описаний изображений. [Онлайн] Стэнфордский факультет компьютерных наук (cs.stanford.edu). Доступно: https://cs.stanford.edu/people/karpathy/cvpr2015.pdf. Дополнительный код и т. Д. См. На странице проекта: https://cs.stanford.edu/people/karpathy/deepimagesent/
[79] там же
[80] Джонсон, Дж., Карпати, А., Фей-Фей., Л. (2015). DenseCap: сети с полностью сверточной локализацией для плотных субтитров. [Онлайн] arXiv: 1511.07571. В наличии: arXiv: 1511.07571v1
[81] там же
[82] Расчет CNN только согласно: Ren et al. (2015). Более быстрый R-CNN: к обнаружению объектов в реальном времени с помощью региональных сетей. [Онлайн] arXiv: 1506.01497. В наличии: arXiv: 1506.01497v3 (версия 2016 г.).
[83] Xu et al. (2015). Покажи, посети и расскажи: создание подписи к нейронным изображениям с визуальным вниманием. [Онлайн] arXiv: 1502.03044. В наличии: arXiv: 1502.03044v3 (версия 2016 г.)
[84] Kiros et al. (2014). Мультимодальные нейронные языковые модели. Материалы 31-й Международной конференции по машинному обучению, PMLR 32 (2): 595–603. Доступно: http://proceedings.mlr.press/v32/kiros14.html
[85] Kiros et al. (2014). Унификация визуально-семантических вложений с многомодальными нейронными языковыми моделями. [Онлайн] arXiv: 1411.2539. В наличии: arXiv: 1411.2539v1
[86] Авторы Kiros et al. (2014) присутствуют в списке авторов Xu et al. (2015).
[87] Распределение Multinoulli параметризуется MLP, и поэтому из него можно производить выборку. Используя выборку Монте-Карло, окончательный результат операции выборки состоит в том, что 1 регион получает полный вес, а остальные получают вес 0.
[88] Уильямс Р. Дж. (1992). Простые статистические алгоритмы следования градиентам для обучения с подкреплением коннекционистов. В: Машинное обучение, 8, стр. 229–256. Доступно: http://www-anw.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf
[89] Олах, К., Картер, С. (2016). Внимание и расширенные рекуррентные нейронные сети. [Онлайн] Distill (distill.pub). Доступно: https://distill.pub/2016/augmented-rnns/
[90] Бртиз, Д. (2016). Внимание и память в глубоком обучении и НЛП. [Блог] WildML (www.wildml.com). Доступно: http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/
[91] You et al. (2016). Подпись к изображениям с семантическим вниманием. [Онлайн] arXiv: 1603.03925. В наличии: arXiv: 1603.03925v1
[92] там же стр. 1
[93] Xu et al. (2015). Покажи, посети и расскажи: создание подписи к нейронным изображениям с визуальным вниманием. [Онлайн] arXiv: 1502.03044. В наличии: arXiv: 1502.03044v3 (версия 2016 г.)
[94] там же стр. 2
[95] там же
[96] Лу и др. (2016). Зная, когда смотреть: адаптивное внимание с помощью визуального сторожа для подписи к изображениям. [Онлайн] arXiv: 1612.01887. В наличии: arXiv: 1612.01887v2 (версия 2017 г.).
[97] там же стр. 1
[98] там же
[99] Chen et al. (2016). SCA-CNN: Пространственное и поканальное внимание в сверточных сетях для субтитров изображений. [Онлайн] arXiv: 1611.05594. В наличии: arXiv: 1611.05594v2
[100] там же
[101] КОКО. (2018). Таблица лидеров с субтитрами. [Веб-сайт] Общие объекты в контексте (cocodataset.org). Доступно: http://cocodataset.org/#captions-leaderboard.
[102] Используемый подход, возможно, в некоторой степени аналогичен подходам, описанным в третьей части этой публикации, где мы углубимся в детали того, как RL все чаще используется в Image Captioning.
[103] peteanderson80 (GitHub). (2018). Up-Down-Captioner. [Онлайн] Модель автоматической подписи к изображениям, автор PeteAnderson80 (Github.com). Доступно: https://github.com/peteanderson80/Up-Down-Captioner. См. Публикацию: Anderson et al. (2017). Внимание к изображениям и визуальным ответам на вопросы снизу вверх и сверху вниз. [Онлайн] arXiv: 1707.07998. В наличии: arXiv: 1707.07998v3 (версия 2018)
[104] там же
[105] В частности, они используют предварительно обученный ResNet-101 с моделью Faster RCNN для вывода этих областей интереса. В целом подход этой статьи связан с ранее упомянутыми документами, в которых использовалась восходящая информация. Обычно восходящее движение завершается и описывается путем генерирования слов (визуальных концепций, атрибутов) из изображения, которые затем могут быть объединены в предложения с использованием языковых моделей. Однако информация об атрибутах и классах неявно содержится в модели Faster RCNN для этой статьи.
[106] Усредненная версия всех входных векторов, сгенерированных детектором объектов CNN, также используется для восходящего внимания.
[107] Визуальный ответ на вопрос - тоже многомодальный тип задачи.
[108] См. Имя panderson @ MSR / ACRV, которое стоит за командой TencentVision, которую видели ранее.
[109] Один интересный момент, который следует упомянуть из статьи, заключается в том, что они сначала обучают систему, используя кросс-энтропийную потерю (XE), как обычно, но затем точно настраивают сеть, напрямую оптимизируя недифференцируемую метрику CIDEr с использованием алгоритма аналогично REINFORCE из области обучения с подкреплением (RL). Мы подробно рассмотрим, как RL все чаще используется в Image Captioning, в следующей части этой публикации.
[110] Андерсон и др. (2017). Внимание к изображениям и визуальным ответам на вопросы снизу вверх и сверху вниз. [Онлайн] arXiv: 1707.07998. В наличии: arXiv: 1707.07998v3 (версия 2018)
[111] Лю и др. (2017). MAT: мультимодальный внимательный переводчик для субтитров к изображениям. [Онлайн] arXiv: 1702.05658. В наличии: arXiv: 1702.05658v3
[112] там же стр. 1
[113] Mun et al. (2016). Модель внимания с текстовыми подсказками для подписей к изображениям. [Онлайн] arXiv: 1612.03557. В наличии: arXiv: 1612.03557v1
[114] там же стр. 1