1. Многомодальный Fusion Transformer для визуальных ответов на вопросы в дистанционном зондировании(arXiv)

Автор: Тим Зиберт, Кай Норман Класен, Махдьяр Раванбахш, Бегюм Демир

Аннотация: С появлением спутниковых технологий нового поколения архивы изображений дистанционного зондирования (ДЗ) растут очень быстро. Чтобы сделать внутреннюю информацию каждого изображения РС легко доступной, в РС был введен визуальный ответ на вопрос (VQA). VQA позволяет пользователю сформулировать в свободной форме вопрос о содержании изображений РС для извлечения общей информации. Было показано, что слияние входных модальностей (то есть изображения и текста) имеет решающее значение для производительности систем VQA. Большинство современных подходов к слиянию используют представления, специфичные для модальности, в своих модулях слияния вместо обучения совместному представлению. Однако, чтобы обнаружить базовую связь между модальностью изображения и вопроса, модель должна изучить совместное представление, а не просто комбинировать (например, объединять, добавлять или умножать) представления, специфичные для модальности. Мы предлагаем мультимодальную архитектуру на основе трансформатора для преодоления этой проблемы. Предлагаемая нами архитектура состоит из трех основных модулей: i) модуль извлечения признаков для извлечения признаков, специфичных для модальности; ii) модуль слияния, который использует заданное пользователем количество мультимодальных слоев преобразования модели VisualBERT (VB); и iii) модуль классификации для получения ответа. Экспериментальные результаты, полученные на наборах данных RSVQAxBEN и RSVQA-LR (которые состоят из полос RGB изображений Sentinel-2), демонстрируют эффективность VBFusion для задач VQA в РС. Чтобы проанализировать важность использования других спектральных диапазонов для описания сложного содержания изображений ДЗЗ в рамках VQA, мы расширили набор данных RSVQAxBEN, включив в него все спектральные диапазоны изображений Sentinel-2 с пространственным разрешением 10 м и 20 м.

2.Поиск расширенных визуальных ответов на вопросы с помощью сторонних знаний(arXiv)

Автор:Вэйчжэ Линь, Билл Бирн

Аннотация:Ответы на визуальные вопросы со сторонними знаниями (OK-VQA) — это сложная задача VQA, требующая извлечения внешних знаний для ответа на вопросы об изображениях. Последние системы OK-VQA используют Dense Passage Retrieval (DPR) для извлечения документов из внешних баз знаний, таких как Википедия, но DPR обучается отдельно от генерации ответов, что потенциально ограничивает общую производительность системы. Вместо этого мы предлагаем совместную схему обучения, которая включает дифференцируемый DPR, интегрированный с генерацией ответов, чтобы систему можно было обучать сквозным образом. Наши эксперименты показывают, что наша схема превосходит последние системы OK-VQA с сильным DPR для поиска. Мы также вводим новые диагностические метрики для анализа того, как взаимодействуют поиск и генерация. Мощные возможности нашей модели по извлечению данных значительно сокращают количество извлекаемых документов, необходимых для обучения, что дает значительные преимущества в качестве ответов и вычислений, необходимых для обучения.

3.Обучающая сеть двойного внимания с встраиванием слов и предложений для визуальных ответов на медицинские вопросы(arXiv)

Автор: Сяофэй Хуан, Хунфан Гун

Аннотация: Исследования в области медицинских визуальных ответов на вопросы (MVQA) могут способствовать развитию компьютерной диагностики. MVQA — это задача, целью которой является прогнозирование точных и убедительных ответов на основе данных медицинских изображений и связанных с ними вопросов на естественном языке. Эта задача требует извлечения богатого медицинскими знаниями функционального контента и его детального понимания. Таким образом, построение эффективной схемы извлечения и понимания признаков является ключом к моделированию. Существующие схемы извлечения вопросов MVQA в основном фокусируются на словесной информации, игнорируя медицинскую информацию в тексте. Между тем, некоторые схемы понимания визуальных и текстовых признаков не могут эффективно фиксировать корреляцию между регионами и ключевыми словами для разумного визуального мышления. В этом исследовании предлагается обучающая сеть двойного внимания с встраиванием слов и предложений (WSDAN). Мы разрабатываем модуль, преобразователь с внедрением предложений (TSE), для извлечения двойного представления вопросов, содержащих ключевые слова и медицинскую информацию. Модуль обучения двойному вниманию (DAL), состоящий из само-внимания и направленного внимания, предлагается для моделирования интенсивных внутримодальных и интермодальных взаимодействий. С несколькими модулями DAL (DAL) обучение визуальному и текстовому совместному вниманию может повысить степень детализации понимания и улучшить визуальное мышление. Экспериментальные результаты на наборах данных ImageCLEF 2019 VQA-MED (VQA-MED 2019) и VQA-RAD демонстрируют, что предлагаемый нами метод превосходит предыдущие современные методы. Согласно исследованиям абляции и картам Grad-CAM, WSDAN может извлекать обширную текстовую информацию и обладает сильными способностями к визуальному мышлению.