Как работает эта программа «искусственного сновидения» и как с ее помощью вы можете создавать свои собственные произведения искусства

Вам не нужно знать какое-либо программирование - достаточно иметь учетную запись Google. Вот статья прямо по теме, попутно рассматривая несколько ключевых историй и научных статей по этой теме.

Я получил несколько писем и пару комментариев с вопросом, как / где запустить программу нейронной сети, которую я использовал для создания картинок в этих Снимках:



(Экранные) снимки искусства, созданные с помощью программы« сновидения искусственного интеллекта - часть 1
Где предел того, что можно считать искусством? Эта программа рисовала свои картинки. Он работает по предопределенным правилам… medium.com »





(Скриншоты) снимки искусства, созданные с помощью программы« сновидения искусственного интеллекта - часть 2
Где предел того, что можно считать искусством? Эта программа рисовала свои картинки. Он работает по предопределенным правилам… medium.com »



Вот ответы. И хотя уже есть некоторые статьи об этом, я сосредоточусь здесь на (i) рассмотрении того, как все это работает, со ссылками на основные статьи и некоторыми отличными объяснениями в историях других людей, и (ii) практическими советами о том, как вы можете модулировать результаты, генерируемые программой, опять же, ссылаясь на рассказы других людей помимо моего собственного.

Во-первых, как все это работает?

Проще говоря, это комбинация двух архитектур нейронных сетей: VQGAN и CLIP. Сеть VQGAN генерирует изображения из входных чисел, а CLIP измеряет сходство между входным текстом и входным изображением. Точнее, VQGAN - это генерирующая состязательная сеть, описанная в этом препринте arXiv, с двумя конкурирующими сетями, выполняющими неконтролируемое обучение. Его основное описание находится в этом препринте arXiv, а также представлено его авторами (П. Эссером, Р. Ромбахом, Б. Оммером) здесь, в этом блоге g. Между тем, CLIP преобразует тексты в изображения способом, вдохновленным сетями для контроля естественного языка и мультимодального обучения. Его основное описание доступно в препринте arXiv и этом блоге. Каковы его авторы (А. Рэдфорд, Дж. У. Ким, К. Халласи, А. Рамеш, Г. Гох, С. Агарвал, Г. Састри, А. Аскелл, П. Мишкин, Дж. Кларк, Г. Крюгер, И. Суцкевер ) было обнаружено, что простое обучение сопоставлению подписей с изображениями является эффективным и масштабируемым способом изучения представлений изображений, так что затем естественный язык может использоваться для ссылки на изученные визуальные концепции.

Разработчики этого удивительного инструмента сновидения об искусстве (К. Кроусон и Р. Мердок) соединили две сети таким образом, что CLIP ведет поиск по входам VQGAN, пытаясь сопоставить текстовые подсказки. Этот процесс медленно смешивает изображения, которые соответствуют вводимым словам, художественными способами, которые вы видели в моих (и многих других) сообщениях. А поскольку в процессе участвуют случайные числа, результаты разных прогонов разные.

Как и в какой степени художник-человек может настроить результат работы программы?

Как художник, работающий с этим инструментом, вы можете контролировать вывод сетей с помощью:

  • Настройка входных слов, для которых вы даже можете указать соотношения (например, если вы хотите футбол, galaxy, гитара в соотношении 2: 1: 2, чтобы выделить футбол и гитару над галактикой, тогда вы можете ввести «футбол, футбол галактика, гитара, гитара»).
  • Выбор библиотек изображений, из которых сети будут изымать цели по мере их работы.
  • Остановка процесса сновидения, когда вы видите, что результат достаточно хорош или не меняется (запуск сети включает в себя итерации, которые в принципе могут быть бесконечными, но часто начинают сходиться после нескольких сотен циклов).
  • Продолжить ли мечту или остановить ее, потому что вам не нравится то, что создается, - а затем перезапустить ее, возможно, изменив также некоторые параметры.

Как предлагает Ханна Джонстон в своей замечательной истории, получить то, что вам нравится, с помощью этих инструментов - это далеко не просто выбор слов и нажатие кнопки Выполнить. Вам понадобится несколько параметров настройки для экспериментов и, конечно же, несколько запусков, чтобы получить что-то близкое к тому, что вы ожидали. И иногда вы никогда не останетесь довольны. Вот почему, по ее словам, вы как бы чувствуете привязанность к конечному результату и видите в нем что-то со значительным личным компонентом. То же самое я сказал в своих рассказах на Snapshots.

Теперь, как и где вы можете запустить эту сеть самостоятельно, чтобы создавать свои собственные произведения искусства?

Базовое управление этими сетями чрезвычайно просто, и вам даже не нужно знать какое-либо программирование. Вы можете просто открыть одну из множества записных книжек Colab, в которых это реализовано, настроить параметры, которые вы хотите использовать (по крайней мере, ключевые слова, вызывающие сны), и нажать «Выполнить», а затем подождать, чтобы увидеть, что получилось.

Если я не ошибаюсь, исходная записная книжка Colab написана на испанском языке: https://colab.research.google.com/drive/1go6YwMFe5MX6XM9tv-cnQiSTU50N9EeT

Но на английский переведено: https://colab.research.google.com/drive/1_4Jl0a7WIJeqy5LTjPJfZOwMZopG5C-W?usp=sharing

Важно отметить, что независимо от того, на каком языке вы запускаете записную книжку Colab, вводимые слова должны быть на английском языке!

Я бы порекомендовал вам просто пойти и поиграть с ноутбуком. Но если вам нужны подробности…

Вот превосходное пошаговое руководство от Ангуса Рассела. Его Метод 1 использует одну из записных книжек Colab в Google:



Резюме других связанных чтений + дополнительные ссылки

  • Полностью подробное руководство (на испанском языке):


→ Вот версия Google Translate на английском языке: https://translate.google.com/translate?hl=&sl=es&tl=en&u=https%3A%2F%2Ftuscriaturas.miraheze.org%2Fwiki%2FAyuda%3AGenerar_im%C3%A1genes_con_VQ % 2BCLIP

  • Как сети работают вместе для создания искусства, автор Алекса Штайнбрюк, глубже, чем мое объяснение выше, но проще, чем полные препринты arXiv:


VQGAN + CLIP - Как это работает?
Сцена с синтетическими изображениями (« GAN Art
) недавно пережила своего рода взрыв производительности: новый вид нейронных… alexasteinbruck.medium.com »



  • Очень интересные мысли о будущем искусства с машинным обучением от Ханны Джонстон:


  • Академическая статья о VQGAN:


  • Академическая работа по CLIP:


Я увлекаюсь природой, наукой, технологиями, программированием и сделай сам. Биотехнолог и химик в мокрой лаборатории и в компьютерах. Пишу обо всем, что входит в круг моих интересов. Посмотрите мои списки, чтобы узнать больше. Станьте средним участником, чтобы получить доступ ко всем рассказам, написанным мной и другими авторами, и подпишитесь, чтобы получать мои новые истории по электронной почте (оригинальные партнерские ссылки платформы).