Модели авторегрессионного языка видения, такие как Flamingo, Kosmos-1 и мультимодальная GPT-4, демонстрируют большой потенциал для выполнения различных задач языка видения, а также обладают сильной способностью к обобщению. Однако эти мощные модели имеют закрытый исходный код, что ограничивает исследования ученых в области авторегрессионных моделей языка видения.

В новой статье OpenFlamingo: платформа с открытым исходным кодом для обучения больших авторегрессивных моделей зрительного языка исследовательская группа из Вашингтонского университета, Стэнфордского университета, Института искусственного интеллекта Аллена, LAION, Калифорнийского университета в Санта-Барбаре , Еврейский университет, Колумбийский университет, Google DeepMind и Juelich Supercomputing Center выпускают OpenFlamingo, репликацию моделей DeepMind Flamingo с открытым исходным кодом для обучения авторегрессионным моделям визуального языка.

OpenFlamingo — это мультимодальная языковая модель для решения широкого круга задач языка видения. Команда решила воспроизвести Flamingo DeepMind из-за его сильных способностей к обучению в контексте.

В частности, учитывая чередующуюся последовательность пар изображение-текст, OpenFlamingo пытается предсказать следующий текст на основе всех предыдущих текстов и последнего предшествующего изображения. Команда прикрепляет плотные модули перекрестного внимания к слоям замороженной авторегрессивной языковой модели, что позволяет текстовым токенам сопровождать соответствующие изображения. Они также извлекают функции патчей, которые генерируются кодировщиком замороженного зрения, и используют обучаемый ресемплер Perceiver для встраивания изображений.

И в отличие от Flamingo, который обучается с использованием набора данных ALIGN и M3W с закрытым исходным кодом, команда использует 1) LAION-2B, набор данных из Интернета с открытым исходным кодом, который состоит из 2B изображений и текста…