GPT4RoI: Модель Vision-Language с многорегиональными пространственными инструкциями

Введение

GPT4RoI — это новая модель, которая сочетает в себе возможности больших языковых моделей (LLM) и функции областей интереса (RoI) для создания описаний изображений и видео на естественном языке. Он был разработан группой исследователей из Шанхайской лаборатории искусственного интеллекта Гонконгского университета. Девизом разработки этой модели было использование богатой семантической информации, закодированной в LLM, и мелкозернистой визуальной информации, полученной с помощью функций RoI, для создания высококачественных подписей, которые были бы связными, разнообразными и информативными.

Что такое GPT4RoI?

GPT4RoI — это языковая модель видения на уровне региона, которая позволяет пользователям взаимодействовать с ней, используя как языковые, так и пространственные инструкции для гибкой настройки уровня детализации вопроса.

Ключевые особенности GPT4RoI

GPT4RoI — это мощная модель языка видения на региональном уровне, которая предлагает пользователям высокий уровень контроля и гибкости. Некоторые из его ключевых особенностей:

Он поддерживает как языковые, так и пространственные инструкции, что означает, что пользователи могут задавать вопросы на естественном языке или использовать координаты для указания интересующей области. Например, пользователи могут спросить «как называется этот цветок?» или «как называется цветок в (0,5, 0,6)?» Это упрощает пользователям взаимодействие с моделью более интуитивным и естественным образом, а также позволяет с легкостью регулировать уровень детализации своих вопросов.
Он поддерживает пространственные инструкции как для одной, так и для нескольких областей, что означает, что пользователи могут задавать вопросы об одной или нескольких областях изображения. Например, пользователи могут спросить: «Как называются цветы на этом изображении?» или «Как называются цветы в точках (0,5, 0,6) и (0,7, 0,8)?» Это открывает дополнительные мультимодальные возможности на уровне регионов, например возможность создания подробных подписей для определенных областей изображения. Эта функция делает GPT4RoI мощным инструментом для тех, кто хочет более подробно и гибко взаимодействовать с языковыми моделями.

Возможности/вариант использования GPT4RoI

Поддержка пространственных инструкций для одного и нескольких регионов: GPT4RoI поддерживает пространственные инструкции для одного и нескольких регионов, что позволяет использовать более подробные мультимодальные возможности на уровне региона. Это означает, что пользователи могут более подробно и гибко взаимодействовать с моделью, открывая новые уровни взаимодействия с языковыми моделями.
Подробные подписи к регионам: поддержка GPT4RoI пространственных инструкций для нескольких регионов открывает возможность создавать подробные подписи для определенных областей изображения. Это делает его мощным инструментом для тех, кто хочет более подробно и гибко взаимодействовать с языковыми моделями.

Вот некоторые из вариантов использования GPT4RoI:

Подписи к изображениям: способность GPT4RoI генерировать подробные подписи для определенных областей изображения делает его мощным инструментом для создания подписей к изображениям. Пользователи могут взаимодействовать с моделью, используя как языковые, так и пространственные инструкции для создания подробных подписей к определенным областям изображения.
Интерактивное исследование изображений: поддержка GPT4RoI пространственных инструкций для одной и нескольких областей позволяет пользователям взаимодействовать с моделью более подробно и гибко, открывая новые уровни взаимодействия с языковыми моделями. Это делает его мощным инструментом для интерактивного исследования изображений, позволяя пользователям исследовать изображения более подробным и интуитивно понятным способом.

Как работает GPT4RoI?

Общая структура GPT4RoI состоит из нескольких компонентов, включая видеокодер, проектор для функций уровня изображения, средство извлечения признаков региона и большую языковую модель (LLM). Модель предназначена для создания представлений объектов на уровне региона с использованием пространственных инструкций.

Кодировщик технического зрения, используемый в GPT4RoI, представляет собой архитектуру ViT-H/14 от CLIP. Встраивание признаков изображения сопоставляется с языковым пространством с использованием одного линейного слоя в качестве проектора. Языковая обработка выполняется с использованием модели Vicuna-7B.

Для извлечения признаков регионального уровня с пространственным сигналом строится многоуровневая пирамида признаков изображения путем выбора четырех слоев из кодера клипового зрения. Координаты объектов добавляются для каждого уровня для сохранения пространственной информации. Легкий модуль тасования масштаба используется для получения более сильной многоуровневой функции. RoIAlign используется для извлечения объектов на уровне региона с выходным размером 14 × 14.

Входные данные для LLM включают префиксную подсказку, которая обеспечивает обзор изображения. Когда во входном тексте присутствует пространственная инструкция, соответствующее встраивание заменяется результатами RoIAlign соответствующего ограничивающего прямоугольника во время токенизации и преобразования во вложения.

В целом, GPT4RoI представляет собой сквозную модель языка визуального восприятия, которая обрабатывает инструкции, содержащие пространственную информацию. Он использует функции как на уровне изображения, так и на уровне региона, чтобы предоставить подробную информацию для языковой обработки.

Оценка эффективности с другими моделями

Как показано в таблице выше, GPT4RoI — это сквозная модель, которая поддерживает понимание на уровне региона и многоэтапный диалог. Это отличает его от других моделей языка видения и позволяет ему хорошо работать в задачах, требующих детального понимания на уровне региона». пожалуйста, перепишите его в более креативном, гуманизированном формате и не потеряйте контекст в соответствии с подзаголовком. не рисуйте Table1, а просто ссылайтесь на нее. попробуйте увеличить длину текста по сравнению с текущей длиной символов цитируемого текста.

Как получить доступ к этой модели и использовать ее?

GPT4RoI имеет открытый исходный код и распространяется под лицензией MIT, что означает, что вы можете использовать его для любых целей, если вы отдаете должное первоначальным авторам. Если вы хотите попробовать GPT4RoI, у вас есть два варианта. Вы можете загрузить код с GitHub или использовать онлайн-демонстрацию. Все соответствующие ссылки приведены в разделе «источник» в конце этой статьи.

Локальный — код можно найти на веб-сайте GitHub, где также можно найти инструкции по установке и запуску модели. Вам нужно будет иметь несколько зависимостей и некоторые другие библиотеки, установленные на вашем компьютере.
Онлайн.Если вы не хотите ничего устанавливать на свой компьютер, вы также можете использовать онлайн-демонстрацию GPT4RoI. Демонстрация позволяет вам взаимодействовать с моделью, используя различные инструкции и ROI для различных текстов. Вы также можете загрузить свои собственные изображения и тексты и посмотреть, как отреагирует модель. Демонстрация — отличный способ изучить возможности GPT4RoI и повеселиться.

Ограничения

GPT4RoI — это мощная модель языка видения на региональном уровне, но она не идеальна. Он имеет некоторые ограничения, о которых вы должны знать, прежде чем использовать его. Вот некоторые из этих ограничений:

У модели могут возникнуть трудности с пониманием небольших областей на изображениях с низким разрешением. Это связано с тем, что модель использует архитектуру глобального внимания ViT, которая может работать медленно при работе с изображениями с высоким разрешением. Чтобы решить эту проблему, вам может потребоваться использовать изображения с более высоким разрешением или обрезать интересующие области, прежде чем передавать их в модель.
Модель опирается на данные о паре регион-текст, которых не очень много. По сравнению с данными пары «изображение-текст» доступно меньше данных пары «регион-текст», что затрудняет для модели изучение соответствия между функциями уровня региона и языковыми моделями. Чтобы решить эту проблему, вам может потребоваться собрать больше данных о паре регион-текст или использовать методы увеличения данных.
Модель поддерживает только естественный язык и взаимодействие с ограничивающей рамкой. Это означает, что вы можете взаимодействовать с моделью только с помощью слов или координат. Однако могут быть и другие способы взаимодействия с моделью, такие как жесты, голос или взгляд. Чтобы решить эту проблему, вам может потребоваться включить в модель более открытые режимы взаимодействия.

Заключение

GPT4RoI — это прорыв в области моделирования языка видения, поскольку он открывает новые возможности и задачи для более детального и гибкого взаимодействия с большими языковыми моделями. Это также способствует будущему пути ИИ, поскольку показывает, как ИИ может понимать и генерировать тексты для определенных областей изображения.

исходный
исследовательский документ — https://arxiv.org/abs/2307.03601
исследовательский документ — https://arxiv.org/pdf/2307.03601.pdf
репозиторий Github — https://github.com/jshilong/GPT4RoI
Лицензия — https://github.com/jshilong/GPT4RoI/blob/main/LICENSE
Демонстрационная ссылка — http:// 139.196.83.164:7000/

Первоначально опубликовано на https://socialviews81.blogspot.com.

Также читайте

Подпишитесь на наши аккаунты в социальных сетях: Facebook/Instagram/Linkedin/Twitter

Присоединяйтесь к Youtube Channel AImonks, чтобы получать интересные видео.

GPT4RoI: Модель Vision-Language с многорегиональными пространственными инструкциями

Также читайте

Вопросы по теме