Microsoft Research создала генеративную модель, которая может сочетать анализ текста и изображений.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Люди накапливают знания в образах. Каждый раз, когда нам представляют идею или опыт, наш мозг немедленно формирует визуальные представления об этом. Точно так же наш мозг постоянно переключает контекст между сенсорными сигналами, такими как звук или текстура, и их визуальными представлениями. Наша способность мыслить визуальными представлениями еще не полностью расширилась до алгоритмов искусственного интеллекта (ИИ). Сегодня большинство моделей искусственного интеллекта в высокой степени специализируются на одной форме представления данных, такой как изображение, текст или звук. В конце концов, мы начнем видеть формы ИИ, которые могут эффективно переводить между различными форматами данных, чтобы оптимизировать создание знаний. Недавно исследователи искусственного интеллекта из Microsoft опубликовали документ, в котором предлагается метод создания изображений на основе коротких текстов.

Наша способность создавать визуальные представления из голосовых или текстовых описаний является одним из магических элементов человеческого познания. Если вас попросят нарисовать изображение баскетбольного матча, вы, вероятно, начнете с схемы трех или четырех игроков, расположенных в центре холста. Даже если это не было прямо указано, вы можете добавить такие детали, как ворона, судья или игрок на определенной позиции для стрельбы. Все эти детали дополняют основное текстовое описание, чтобы соответствовать нашей визуальной версии баскетбольной игры. Разве не было бы замечательно, если бы модели искусственного интеллекта могли делать то же самое? Преобразование текста в изображение (TTI) - одна из новых дисциплин глубокого обучения, которая фокусируется на создании изображений из базовых текстовых представлений. Хотя область TTI находится на очень ранних стадиях, мы уже наблюдаем некоторый ощутимый прогресс с некоторыми моделями, которые оказались эффективными в очень конкретных сценариях. Однако в моделях TTI есть очень специфические проблемы, которые еще предстоит решить.

Создание изображений из текста: проблемы и соображения

Есть несколько актуальных проблем, которые традиционно блокировали развитие моделей TTI, но большинство из них можно отнести к одной из следующих групп?

1) Проблема зависимости: Очевидно, что модели TTI сильно зависят как от методов текстового, так и от визуального анализа, которые, несмотря на значительный прогресс в последние годы, предстоит проделать большую работу. для достижения широкого распространения. С этой точки зрения возможности моделей TTI обычно ограничиваются спецификой лежащих в основе моделей анализа текста и генерации изображений.

2) Отношения концепт-объект. Невероятно сложная проблема, которую нужно решить в моделях TTI, - это отношения между концептом, извлеченным из текстового описания, и соответствующими ему визуальными объектами. Фактически, может существовать бесконечное количество объектов, соответствующих определенному текстовому описанию. Выявление правильного соответствия между концепциями и объектами остается ключевой задачей в моделях TTI.

3) Отношения объект-объект. Любое изображение выражает отношения между объектами в визуальном формате. Чтобы отразить данное повествование, модель TTI должна генерировать не только правильные объекты, но и отношения между ними. Создание более сложных сцен, содержащих несколько объектов с семантически значимыми отношениями между этими объектами, остается серьезной проблемой в технологии генерации текста в изображение.

Объектно-ориентированный внимательный GAN

Чтобы решить некоторые из традиционных проблем моделей TTI, Microsoft Research использовала все более популярные методы генеративных состязательных сетей (GAN). GAN обычно состоит из двух моделей машинного обучения - генератора, который генерирует изображения из текстовых описаний, и дискриминатора, который использует текстовые описания для оценки подлинности сгенерированных изображений. Генератор пытается пройти через дискриминатор поддельные изображения; с другой стороны, дискриминатор никогда не хочет, чтобы его обманули. Работая вместе, дискриминатор подталкивает генератор к совершенству. Microsoft вводит новшества в традиционные модели GAN, добавляя механизм внимания снизу вверх. Модель Obj-GAN разрабатывает объектно-управляемый внимательный генератор плюс объектный дискриминатор, что позволяет GAN синтезировать высококачественные изображения сложных сцен.

Основная архитектура Obj-GAN выполняет синтез TTI в два этапа:

1) Создание семантического макета: Эта фаза включает в себя создание таких элементов, как метки классов, ограничивающие рамки, формы выступающих объектов и т. д. Эта функциональность реализуется двумя основными компонентами: Генератором рамок и Генератором форм. .

2) Генерация конечных изображений: Эта функция выполняется внимательным многоступенчатым генератором изображений, а также дискриминатором.

На следующем рисунке представлена ​​высокоуровневая архитектура модели Obj-GAN. Модель получает в качестве входных данных предложение с набором токенов, которые затем кодируются как векторы слов. После этого входные данные обрабатываются в три основных этапа: создание блока, формирование формы и создание изображения.

Первый шаг модели Obj-GAN принимает предложение в качестве входных данных и генерирует семантический макет, последовательность объектов, заданных их ограничивающими рамками. Генератор прямоугольников модели отвечает за создание последовательности ограничивающих прямоугольников, которые затем используются генератором формы. Учитывая набор ограниченных прямоугольников в качестве входных данных, генератор форм предсказывает форму каждого объекта в его соответствующем поле. Формы, созданные генератором форм, затем используются моделью GAN генератора изображений.

Obj-GAN включает внимательную нейронную сеть многоступенчатого генератора изображений, основанную на двух основных генераторах. Базовый генератор сначала генерирует изображение с низким разрешением, обусловленное глобальным вектором предложения и предварительно сгенерированным семантическим макетом. Затем второй генератор уточняет детали в разных регионах, обращая внимание на наиболее релевантные слова и заранее сгенерированные метки классов, и генерирует более высокое разрешение.

К настоящему времени вы можете задаться вопросом, где же здесь вступает в игру состязательный компонент архитектуры? В этом роль объектного дискриминатора. Роль этого компонента заключается в том, чтобы действовать как противник для обучения генератора изображений. Модель Obj-GAN включает два основных дискриминатора:

· Дискриминатор Patch-Wise: этот дискриминатор используется для обучения генераторов прямоугольников и форм. Первый дискриминатор пытается оценить, соответствуют ли сгенерированные ограничивающие прямоугольники заданному предложению, а второй дискриминатор делает то же самое для оценки соответствия между ограничивающими прямоугольниками и формами.

· Объектно-разумный дискриминатор: этот дискриминатор использует набор ограничивающих рамок и меток объектов в качестве входных данных и пытается определить, соответствуют ли сгенерированные изображения исходному описанию.

Использование состязательных дуэтов генератор-дискриминатор для генерации прямоугольников, форм и изображений дало Obj-GAN преимущество перед другими традиционными методами TTI. Microsoft сравнила Obj-GAN с современными моделями TTI, и результаты были замечательными. Просто посмотрите на разницу в качестве сгенерированных изображений и их соответствие исходным предложениям.

Возможность создавать визуальные представления данного повествования будет важным направлением следующего поколения моделей глубокого обучения для анализа текста и изображений. Такие идеи, как Obj-GAN, безусловно, вносят соответствующие инновации в эту область пространства глубокого обучения.