OpenAI недавно опубликовал новость о своей новой модели под названием DALL-E (бумага еще не опубликована). Друзья присылали мне сообщения и говорили о том, какой замечательный DALL-E. Один из моих друзей сел со своей 5-летней дочерью и дал ей поиграть с демонстрационным интерфейсом DALL-E, и они целый час развлекались, делая ежиков из картофеля фри среди других странных животных.

DALL-E — это расширение GPT-3, которое генерирует изображения из текста. ГПТ-3 и другие модели, такие как БЕРТ, Т5 и другие, основаны на трансформаторах. Трансформеры — это нейронные сети, которые можно обучать на больших объемах данных. Огромный объем данных обеспечивает отличные модели. Единственная разница между DALL-E и такими моделями, как GPT-3, заключается в том, что DALL-E обучался как на текстовых, так и на пиксельных данных.

DALL-E — мощная модель, которая может:

  1. изменить атрибуты объекта и количество раз, которое он появляется на изображении

2. создавать несколько объектов с несколькими атрибутами и правильно отображать их физические отношения

3. создавать объекты с разными точками зрения и текстурами

4. создавать внутренние и внешние структуры объектов

5. понять контекст, связанный с подписью

6. переносить и смешивать концепции между объектами

7. Создавайте разнообразные иллюстрации животных

8. Применяйте визуальные рассуждения Zero-shot к изображениям

9. понимать и создавать географически и временно правильные изображения

DALL-E имеет множество приложений для дизайнеров, как показано на изображениях выше. Но эта модель может помочь писателям лучше визуализировать свои сюжетные линии. Как писатель, я иногда не могу полностью визуализировать объекты в пейзаже вокруг моих персонажей. Такой инструмент, как DALL-E, мог бы помочь создать эти объекты в моей голове. Например, одежду моих персонажей, дома, в которых они живут, их питомцев, временную обстановку и физические особенности персонажей можно было бы гораздо лучше смоделировать с помощью такого инструмента, как DALL-E. Можно вносить прогрессивные изменения в эти атрибуты и выбирать те, которые нужно включить в их повествование.

Мне не терпится в будущем использовать DALL-E API для создания инструментов, которые помогут писателям создавать визуальные ландшафты для своих историй.