OpenAI недавно опубликовал новость о своей новой модели под названием DALL-E (бумага еще не опубликована). Друзья присылали мне сообщения и говорили о том, какой замечательный DALL-E. Один из моих друзей сел со своей 5-летней дочерью и дал ей поиграть с демонстрационным интерфейсом DALL-E, и они целый час развлекались, делая ежиков из картофеля фри среди других странных животных.
DALL-E — это расширение GPT-3, которое генерирует изображения из текста. ГПТ-3 и другие модели, такие как БЕРТ, Т5 и другие, основаны на трансформаторах. Трансформеры — это нейронные сети, которые можно обучать на больших объемах данных. Огромный объем данных обеспечивает отличные модели. Единственная разница между DALL-E и такими моделями, как GPT-3, заключается в том, что DALL-E обучался как на текстовых, так и на пиксельных данных.
DALL-E — мощная модель, которая может:
- изменить атрибуты объекта и количество раз, которое он появляется на изображении
2. создавать несколько объектов с несколькими атрибутами и правильно отображать их физические отношения
3. создавать объекты с разными точками зрения и текстурами
4. создавать внутренние и внешние структуры объектов
5. понять контекст, связанный с подписью
6. переносить и смешивать концепции между объектами
7. Создавайте разнообразные иллюстрации животных
8. Применяйте визуальные рассуждения Zero-shot к изображениям
9. понимать и создавать географически и временно правильные изображения
DALL-E имеет множество приложений для дизайнеров, как показано на изображениях выше. Но эта модель может помочь писателям лучше визуализировать свои сюжетные линии. Как писатель, я иногда не могу полностью визуализировать объекты в пейзаже вокруг моих персонажей. Такой инструмент, как DALL-E, мог бы помочь создать эти объекты в моей голове. Например, одежду моих персонажей, дома, в которых они живут, их питомцев, временную обстановку и физические особенности персонажей можно было бы гораздо лучше смоделировать с помощью такого инструмента, как DALL-E. Можно вносить прогрессивные изменения в эти атрибуты и выбирать те, которые нужно включить в их повествование.
Мне не терпится в будущем использовать DALL-E API для создания инструментов, которые помогут писателям создавать визуальные ландшафты для своих историй.