Действительно ли картинка стоит тысячи слов?

Как новый подход Alibaba к сопоставлению текста и изображений повышает точность поиска изображений

Эта статья является частью серии Academic Alibaba и взята из статьи Jiuxiang Gu под названием Посмотри, представь и сопоставь: улучшение текстуально-визуального кросс-модального поиска с помощью генеративных моделей. , Jianfei Cai , Shafiq Joty, Li Niu и Gang Wang, приняты CVPR 2018. Полностью статью можно прочитать здесь.

Извлечение релевантных изображений из запроса текстового поиска является популярной темой в наши дни как в сообществах компьютерного зрения, так и в сообществах обработки языка, особенно в эпоху больших данных и огромного роста модальностей текстовых, видео и графических данных. Проблема связана с большими объемами данных и многочисленными свойствами, которые они могут проявлять, что затрудняет их поиск, например, с помощью запроса текстового поиска.

Исследователи из Alibaba AI Labs и Наньянского технологического университета провели эксперименты, используя новую структуру, которая сопоставляет изображения и предложения со сложным содержанием, добиваясь сложного межмодального поиска результатов в наборе данных MSCOCO.

Текущие рамки

В настоящее время наиболее распространенным методом является кодирование отдельных модальностей (например, изображений) в их соответствующие функции, а затем отображение их в общее семантическое пространство. Это включает в себя оптимизацию с использованием системы ранжирования, которая способствует тому, чтобы сходство сопоставляемых признаков пар изображение-текст было больше, чем у любой другой отрицательной пары. Как только общность найдена, сходство между двумя модальностями можно легко измерить, вычислив расстояние между их представлениями в общем пространстве.

Хотя этот метод успешно использовался для семантических понятий высокого уровня в мультимодальных данных, этого метода недостаточно для извлечения изображений с подробным локальным сходством (например, пространственное расположение) или предложений со сходством на уровне слов. С другой стороны, люди могут связать более мелкие детали изображения, что позволяет нам более точно связать текстовый запрос с соответствующими изображениями. Таким образом, если мы сможем обосновать представление одной модальности объектами другой модальности, мы сможем научиться лучше отображать.

Использование генеративных моделей

Чтобы улучшить кросс-модальный поиск, техническая группа Alibaba предложила интегрировать генеративные модели во встраивание текстовых и визуальных функций.Это означает, что в дополнение к обычному встраиванию кросс-модальных функций на глобальном семантическом уровне, на локальном уровне введено дополнительное встраивание кросс-модальных функций. Это основано на двух генеративных моделях: преобразование изображения в текст и преобразования текста в изображение.Команда предложила кросс-модальное встраивание функций в генеративные модели на высоком уровне с тремя отдельными этапами обучения: look, imagine и match.Сначала из запроса извлекается абстрактное представление. Затем воображается целевой элемент (текст или изображение) в другой модальности и формируется более конкретное обоснованное представление. Это делается путем запроса представления одной модальности для создания элемента в другой модальности и проведения сравнения.Наконец, правильные пары изображение-текст сопоставляются с использованием показателя релевантности, рассчитанного на основе на сочетании обоснованных и абстрактных представлений. Эксперименты проводились на эталонном наборе данных MSCOCO.

Результаты

Использование двух генеративных моделей с обычным встраиванием текстовых и визуальных признаков позволило исследователям использовать конкретные обоснованные представления, чтобы зафиксировать детальное сходство между двумя модальностями. Они обнаружили, что сочетание обоснованных и абстрактных представлений может значительно повысить производительность кросс-модального поиска подписей к изображениям.Эта структура значительно превосходит другие продвинутые текстуально-визуальные кросс-модальные методы поиска в наборе данных MSCOCO.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная и исчерпывающая информация из первых рук о новейших технологиях Alibaba → Найдите «Alibaba Tech» на Facebook.

Действительно ли картинка стоит тысячи слов?

Текущие рамки

Использование генеративных моделей

Результаты

Алибаба Тех

Вопросы по теме