Публикации по теме 'visual-question-answering'


Простая основа для визуальных ответов на вопросы: краткий обзор
С ростом популярности недавних чат-ботов (ChatGPT, Bard и т. д.) и других реализаций ИИ внимание обращается на область исследований мультимодального машинного обучения, где эти модели кажутся самым сильным кандидатом на искусственный интеллект человеческого уровня. Как отмечает Айшвария Агравал и др. чтобы достичь более сложных алгоритмов, идеальная задача должна требовать мультимодальных знаний за пределами одной подобласти (например, резюме) и иметь четко определенную..

Могу я привлечь ваше внимание?
Механизм внимания и его многочисленные варианты, исследованные в разделе "Визуальный ответ на вопрос" Ванильные архитектуры для визуального ответа на вопрос (VQA) представляют вопрос в один вектор встраивания вопроса, представляют все содержимое изображения в один вектор встраивания изображения, объединяют два и затем передают это в многослойный персептрон для получения распределения по всем вариантам ответов. Это достаточно хорошо работает по широкому кругу вопросов по стандартным..