Как работает эта программа «искусственного сновидения» и как с ее помощью вы можете создавать свои собственные произведения искусства

Вам не нужно знать какое-либо программирование - достаточно иметь учетную запись Google. Вот статья прямо по теме, попутно рассматривая несколько ключевых историй и научных статей по этой теме.

Я получил несколько писем и пару комментариев с вопросом, как / где запустить программу нейронной сети, которую я использовал для создания картинок в этих Снимках:

(Экранные) снимки искусства, созданные с помощью программы« сновидения искусственного интеллекта - часть 1
Где предел того, что можно считать искусством? Эта программа рисовала свои картинки. Он работает по предопределенным правилам… medium.com »

(Скриншоты) снимки искусства, созданные с помощью программы« сновидения искусственного интеллекта - часть 2
Где предел того, что можно считать искусством? Эта программа рисовала свои картинки. Он работает по предопределенным правилам… medium.com »

Вот ответы. И хотя уже есть некоторые статьи об этом, я сосредоточусь здесь на (i) рассмотрении того, как все это работает, со ссылками на основные статьи и некоторыми отличными объяснениями в историях других людей, и (ii) практическими советами о том, как вы можете модулировать результаты, генерируемые программой, опять же, ссылаясь на рассказы других людей помимо моего собственного.

Во-первых, как все это работает?

Проще говоря, это комбинация двух архитектур нейронных сетей: VQGAN и CLIP. Сеть VQGAN генерирует изображения из входных чисел, а CLIP измеряет сходство между входным текстом и входным изображением. Точнее, VQGAN - это генерирующая состязательная сеть, описанная в этом препринте arXiv, с двумя конкурирующими сетями, выполняющими неконтролируемое обучение. Его основное описание находится в этом препринте arXiv, а также представлено его авторами (П. Эссером, Р. Ромбахом, Б. Оммером) здесь, в этом блоге g. Между тем, CLIP преобразует тексты в изображения способом, вдохновленным сетями для контроля естественного языка и мультимодального обучения. Его основное описание доступно в препринте arXiv и этом блоге. Каковы его авторы (А. Рэдфорд, Дж. У. Ким, К. Халласи, А. Рамеш, Г. Гох, С. Агарвал, Г. Састри, А. Аскелл, П. Мишкин, Дж. Кларк, Г. Крюгер, И. Суцкевер ) было обнаружено, что простое обучение сопоставлению подписей с изображениями является эффективным и масштабируемым способом изучения представлений изображений, так что затем естественный язык может использоваться для ссылки на изученные визуальные концепции.

Разработчики этого удивительного инструмента сновидения об искусстве (К. Кроусон и Р. Мердок) соединили две сети таким образом, что CLIP ведет поиск по входам VQGAN, пытаясь сопоставить текстовые подсказки. Этот процесс медленно смешивает изображения, которые соответствуют вводимым словам, художественными способами, которые вы видели в моих (и многих других) сообщениях. А поскольку в процессе участвуют случайные числа, результаты разных прогонов разные.

Как и в какой степени художник-человек может настроить результат работы программы?

Как художник, работающий с этим инструментом, вы можете контролировать вывод сетей с помощью:

Настройка входных слов, для которых вы даже можете указать соотношения (например, если вы хотите футбол, galaxy, гитара в соотношении 2: 1: 2, чтобы выделить футбол и гитару над галактикой, тогда вы можете ввести «футбол, футбол галактика, гитара, гитара»).
Выбор библиотек изображений, из которых сети будут изымать цели по мере их работы.
Остановка процесса сновидения, когда вы видите, что результат достаточно хорош или не меняется (запуск сети включает в себя итерации, которые в принципе могут быть бесконечными, но часто начинают сходиться после нескольких сотен циклов).
Продолжить ли мечту или остановить ее, потому что вам не нравится то, что создается, - а затем перезапустить ее, возможно, изменив также некоторые параметры.

Как предлагает Ханна Джонстон в своей замечательной истории, получить то, что вам нравится, с помощью этих инструментов - это далеко не просто выбор слов и нажатие кнопки Выполнить. Вам понадобится несколько параметров настройки для экспериментов и, конечно же, несколько запусков, чтобы получить что-то близкое к тому, что вы ожидали. И иногда вы никогда не останетесь довольны. Вот почему, по ее словам, вы как бы чувствуете привязанность к конечному результату и видите в нем что-то со значительным личным компонентом. То же самое я сказал в своих рассказах на Snapshots.

Теперь, как и где вы можете запустить эту сеть самостоятельно, чтобы создавать свои собственные произведения искусства?

Базовое управление этими сетями чрезвычайно просто, и вам даже не нужно знать какое-либо программирование. Вы можете просто открыть одну из множества записных книжек Colab, в которых это реализовано, настроить параметры, которые вы хотите использовать (по крайней мере, ключевые слова, вызывающие сны), и нажать «Выполнить», а затем подождать, чтобы увидеть, что получилось.

Если я не ошибаюсь, исходная записная книжка Colab написана на испанском языке: https://colab.research.google.com/drive/1go6YwMFe5MX6XM9tv-cnQiSTU50N9EeT

Но на английский переведено: https://colab.research.google.com/drive/1_4Jl0a7WIJeqy5LTjPJfZOwMZopG5C-W?usp=sharing

Важно отметить, что независимо от того, на каком языке вы запускаете записную книжку Colab, вводимые слова должны быть на английском языке!

Я бы порекомендовал вам просто пойти и поиграть с ноутбуком. Но если вам нужны подробности…

Вот превосходное пошаговое руководство от Ангуса Рассела. Его Метод 1 использует одну из записных книжек Colab в Google:

Как использовать VQGAN + CLIP для создания изображений из текстовой подсказки - полное, нетехническое руководство.
Узнайте, как использовать современный ИИ для создавать невероятные произведения искусства. Никаких технических знаний или программирования не требуется. medium.com

Резюме других связанных чтений + дополнительные ссылки

Полностью подробное руководство (на испанском языке):

Ayuda: Генеральные изображения с VQGAN + CLIP
- это красная антагонистическая генерация. Las Redes Neuronales Generativas Antagónicas (или Adversarias), también conocidas como… tuscriaturas.miraheze.org

→ Вот версия Google Translate на английском языке: https://translate.google.com/translate?hl=&sl=es&tl=en&u=https%3A%2F%2Ftuscriaturas.miraheze.org%2Fwiki%2FAyuda%3AGenerar_im%C3%A1genes_con_VQ % 2BCLIP

Как сети работают вместе для создания искусства, автор Алекса Штайнбрюк, глубже, чем мое объяснение выше, но проще, чем полные препринты arXiv:

VQGAN + CLIP - Как это работает?
Сцена с синтетическими изображениями (« GAN Art ) недавно пережила своего рода взрыв производительности: новый вид нейронных… alexasteinbruck.medium.com »

Очень интересные мысли о будущем искусства с машинным обучением от Ханны Джонстон:

Будущее искусства с машинным обучением
Создание изображений с помощью VQGAN + CLIP Colab от Кэтрин Кроусон и учебное пособие от Сэма Кинга medium.com

Академическая статья о VQGAN:

Изучение переносимых визуальных моделей с помощью естественного языка
Современные системы компьютерного зрения обучены предсказывать фиксированный набор заранее определенных категорий объектов. Это… arxiv.org

Академическая работа по CLIP:

Укрощающие преобразователи для синтеза изображений высокого разрешения
Разработанные для изучения дальнодействующих взаимодействий с последовательными данными, преобразователи продолжают показывать самые современные результаты на… arxiv.org

Я увлекаюсь природой, наукой, технологиями, программированием и сделай сам. Биотехнолог и химик в мокрой лаборатории и в компьютерах. Пишу обо всем, что входит в круг моих интересов. Посмотрите мои списки, чтобы узнать больше. Станьте средним участником, чтобы получить доступ ко всем рассказам, написанным мной и другими авторами, и подпишитесь, чтобы получать мои новые истории по электронной почте (оригинальные партнерские ссылки платформы).

Как работает эта программа «искусственного сновидения» и как с ее помощью вы можете создавать свои собственные произведения искусства