Публикации по теме 'vision-language-model'


Крупные авторегрессивные языковые модели видения с открытым исходным кодом: организации объединяют усилия для воспроизведения…
Модели авторегрессионного языка видения, такие как Flamingo, Kosmos-1 и мультимодальная GPT-4, демонстрируют большой потенциал для выполнения различных задач языка видения, а также обладают сильной способностью к обобщению. Однако эти мощные модели имеют закрытый исходный код, что ограничивает исследования ученых в области авторегрессионных моделей языка видения. В новой статье OpenFlamingo: платформа с открытым исходным кодом для обучения больших авторегрессивных моделей зрительного..

GPT4RoI: Модель Vision-Language с многорегиональными пространственными инструкциями
Введение GPT4RoI — это новая модель, которая сочетает в себе возможности больших языковых моделей (LLM) и функции областей интереса (RoI) для создания описаний изображений и видео на естественном языке. Он был разработан группой исследователей из Шанхайской лаборатории искусственного интеллекта Гонконгского университета. Девизом разработки этой модели было использование богатой семантической информации, закодированной в LLM, и мелкозернистой визуальной информации, полученной с..