Введение

Любой, кто раньше работал с DALL-E 2, вероятно, знаком с тем, как, когда вы вводите ему текст, он возвращает несколько различных возможных генераций изображения для этого текста. Это связано с тем, как модель генерирует изображения из случайно инициализированного шума и делает это несколько раз с различным шумом, чтобы дать вам, пользователю, некоторое разнообразие. Но со многими изображениями, соответствующими одному текстовому вводу, можно спросить: «Какое изображение лучше всего создано для этой подписи?» Это субъективный вопрос, и у людей могут быть разные ответы, но многие люди будут тяготеть к сгенерированным изображениям, которые содержат все, о чем просит текст.

Мы можем задать этот вопрос и в обратном направлении. Если у нас есть изображение, и модель подписи к изображению создает множество различных возможных подписей для этого изображения, какая подпись является лучшей? Надеюсь, вы поймете логику того, что подпись, содержащая наиболее точную информацию о содержании изображения, может считаться «лучшей» подписью. Это идея статьи «Понимают ли DALL-E и Flamingo друг друга?», в которой исследуется, как мультимодальные модели в этих двух направлениях могут взаимодействовать друг с другом.

ДАЛЛ-Э 2 и Фламинго

К настоящему времени большинство пользователей Интернета знакомы с DALL-E 2 и его возможностями в качестве модели преобразования текста в изображение. Подробнее о том, как именно работают диффузионные модели и конкретно DALL-E 2, я уже писал об этом статью. Однако, поскольку код для DALL-E 2 до сих пор недоступен в открытом доступе, авторы вместо этого используют Stable Diffusion. Они также используют CLIP в статье для наблюдения за сходством изображения и текста.

Flamingo — это новая модель визуального языка, представленная DeepMind в 2022 году. Она позволяет добиться очень хороших результатов во многих задачах преобразования изображения в текст, таких как визуальные ответы на вопросы и создание подписей к изображениям. Он использует большие языковые модели и современные визуальные представления, а также добавляет новую архитектуру между компонентами для их объединения. Благодаря обширному предварительному обучению на больших мультимодальных данных он достигает очень хороших результатов при обучении за несколько шагов.

Код и модели Flamingo также в настоящее время не являются открытым исходным кодом. Таким образом, авторы этой статьи использовали для своих экспериментов BLIP (по сути, вы можете принять во внимание название статьи, так как она не использует ни DALL-E, ни Flamingo). BLIP (предварительное обучение языку и изображениям начальной загрузки) был выпущен в начале 2022 года и представляет собой еще один метод предварительной подготовки моделей языка зрения для улучшения их совместного понимания изображений и текста с помощью начальных подписей. BLIP также достигает очень хороших результатов в задачах преобразования изображения в текст, таких как создание подписей к изображениям.

Основная идея этой статьи заключается в том, что модели преобразования изображения в текст и модели преобразования текста в изображение должны в целом согласовываться с тем, что, по их мнению, является лучшим изображением/текстом. Это означает, что если вы дадите подпись модели преобразования текста в изображение для создания изображения, а затем подадите это сгенерированное изображение в модель преобразования текста в изображение, мы должны получить подпись, очень близкую к исходной подписи. И наоборот, если мы дадим модели преобразования изображения в текст изображение для создания подписи, а затем введем эту сгенерированную подпись в модель преобразования текста в изображение, мы должны получить изображение с очень похожим содержанием на оригинал.

Авторы используют CLIP как меру сходства между исходным изображением/текстом и сгенерированным изображением/текстом путем сравнения расстояния между вложениями CLIP. BLIP модифицирован для вывода титров примерно одинаковой длины, так что измеряется качество титров, а посторонние слова не искажают измерения. Они утверждают, что изображение/заголовок с наименьшим расстоянием между источником и сгенерированным изображением является «лучшим», поскольку в нем теряется меньше всего информации. В количественном отношении использование этого метода для выбора изображения/текста вместо использования выборки ядер дает лучшие результаты как в отношении качества изображения, так и в отношении подписей к изображениям в наборах данных COCO и NoCaps соответственно.

Есть еще случаи, когда этот метод не очень хорошо работает. Во-первых, из-за врожденных предубеждений, присутствующих в моделях.

Stable Diffusion генерирует стетоскопы для каждого изображения, несмотря на то, что его нет в исходной подписи. Скорее всего, это связано с тем, что в реальном мире врачи часто видят со стетоскопами, и это было то, что присутствовало в наборе данных, и модель это усвоила. Из-за этого качество изображения оценивается как высокое, поскольку в нем обычно есть все, что указано в входной подписи, но качество подписи оценивается как низкое из-за пропущенного слова.

Второй случай сбоя связан с проблемами, связанными с аннотацией человека. Многие люди-аннотаторы не очень тщательно подписывают изображение и не будут описывать каждую деталь, в то время как модели подписей к изображениям могут сделать это легко. Люди также могут ошибаться, например, увидеть лемура и принять его за обезьяну, в то время как модель знает разницу между двумя видами.

В целом, эта статья основана на довольно простой концепции выбора наилучших выходных данных для моделей визуального языка. Эмпирически результаты показывают улучшения по сравнению с предыдущими методами выборки, и это также идея, которую сможет понять большинство людей. Однако этот метод, по-видимому, зависит, по крайней мере, от модели, которая соответствует выходным данным (вторая модель), чтобы быть компетентной. Если у нас есть ужасная модель преобразования изображения в текст, мы можем передать все ужасные подписи, которые она генерирует, в хорошую модель преобразования текста в изображение, и эта модель может, по крайней мере, дать достойные результаты для сравнения для выбора лучшей подписи для работы. правильно. Предыдущие методы выборки также делали все возможное, чтобы выбрать решение из выходных данных модели, но эта модель опирается на совершенно другую и также хорошую модель выборки, которая может занимать много памяти и времени выполнения.

Я думаю, что эта идея интересна, но может столкнуться с некоторыми практическими проблемами при попытке использовать ее в производстве. Возможно, с дальнейшей оптимизацией среды выполнения и памяти этот метод выборки мог бы оказаться полезным. Если Deepmind и OpenAI однажды решат объединиться, возможно, они также смогут сделать название этой статьи не кликбейтным.

Ссылки: