От стилевых GAN к диффузионным моделям

Вот история о том, чему меня научили три года назад создание 1074 3D-форм с использованием стилей GAN… и как я оставался в курсе всех вещей в создании изображений с помощью ИИ…

Креативность — это не только умение заблудиться, но и планирование.

Визуальное творчество — это вопрос совпадения, а также результат планирования и опыта.

Подскажите инженеры, извините. Вы уже безработный.

Когда я проектирую или рисую, я блуждаю.

Когда я блуждаю, я теряюсь, а затем внезапно на дороге появляется что-то яркое или бросающееся в глаза. Я воспринимаю это визуальное открытие как сигнал и какое-то время плыву вместе с ним. Это помогает мне развивать свой дизайн или рисунок до следующего момента, когда я снова позволяю себе заблудиться.

Мы начинаем свою творческую деятельность с намерения — видения того, что мы можем произвести, — но наши намерения и действия НИКОГДА не ведут нас прямо из точки А в точку Б.

Скорее, мы обнаруживаем что-то среднее, особенно когда уклоняемся от пути.

Креативность и новизна требуют большего, чем позволить этому случиться: мы должны сознательнозаставить это произойти.

Оказывается, у инструментов машинного обучения есть большой потенциал стать для нас сосудом, чтобы заблудиться в том, что мы ищем.

Я обнаружил это благодаря серии экспериментов, в которых я начал с коллекции фотографий своих картин маслом и закончил совершенно неожиданной и невероятно захватывающей коллекцией изображений и видео.

Я вернулся к масляной живописи 7 лет назад. Каждый, идущий по темным аллеям доктора философии. программа» нуждается в выходе, чтобы отпустить насущный вопрос о том, что должно произойти дальше. Пока я разбирался с этим, масляная живопись оказалась отличным вариантом.

Живопись не была для меня чем-то новым, и моя кандидатская диссертация. диссертация уже исследовала пересечение компьютеров и визуального творчества. В течение многих лет я изучал разницу между человеком и машиной, определяя, чем наши телесные и перцептивные процессы отличаются от электрических компьютерных.

Обучение моделям машинного обучения требует тщательного планирования

ML как новый инструмент визуального дизайна

Кто не хочет заблудиться в бескрайних джунглях визуального погружения? Dall.E 2, Midjourney и Stable Diffusion показали нам ответ: никто!

Каждая новая технология кажется великолепной на первый взгляд. Это относится и к инструментам дизайна — возникает новый метод, и люди сходят с ума по нему!

Однако использование сложного инструмента не обязательно приводит к высококачественному результату.

Работая с передовыми инструментами моделирования и проектирования, разрабатывая и обучая их, я заметил, что слишком многие души теряются в потенциале техники и в конечном итоге создают шум…

ИИ не исключение — теперь опасность еще больше, потому что, боже мой, эта штука может многое! Поэтому я сохраняю свой критический взгляд и подход, пока я больше узнаю об этом.

Миру не нужно, чтобы я производил больше шума, но если я смогу создать качественную художественную и дизайнерскую работу, то это будет победа. Я работаю над этим.

Вот что меня заинтересовало методами извлечения и генерации стилей, а именно Style GAN. Как дизайнера, ориентированного на визуальную составляющую, это неудивительно.

Что ML может сделать для процессов визуального проектирования?

Одним из обещаний машинного обучения является то, что вы можете обучать модели, которые могут фиксировать и использовать визуальные (или рисующие) стили. Хотя обученные модели не могут (и не должны) воспроизводить исходные стили со 100% точностью, они помогают создавать изображения с аналогичными визуальными качествами.

Обучив модель, вы можете создать множество изображений со схожими визуальными качествами.

Почему это важно?

Как архитектурные процессы, так и процессы проектирования продуктов выигрывают от вдохновляющих изображений. В прошлом дизайнеры просматривали книги и журналы в поисках визуальных идей.

Постепенно они перешли к онлайн-поиску, чтобы найти изображения, которые помогут им использовать и описать свои дизайнерские идеи и намерения.

Теперь ландшафт вот-вот изменится, так как вам не нужно выбирать «только» пару изображений. Алгоритмы машинного обучения позволяют нам смешивать и преобразовывать сотни, если не тысячи изображений.

Глядя на эти трансформирующиеся изображения, вы можете захватить экземпляры, которые отображают визуальные качества из множества изображений.

Каким-то образом несколько творческих идей воплощаются в одном незнакомом образе! И эта непривычность, несомненно, уступает место новизне.

Для многих людей эти сгенерированные образы так или иначе являются ответом (или конечным продуктом) процесса. То есть, синтетическая картина или синтетический дизайн обуви, который выходит из алгоритма ML. Для меня это то, с чего вы начинаете. Что вы делаете с этим сгенерированным изображением? Это более важно, так как интуиция и опыт должны вступить в игру.

Таким образом, машинное обучение может сделать вас более творческим — в следующий раз, возможно, вы сможете использовать это как ответ, когда кто-то спросит могут ли компьютеры быть творческими или нет.

Вот мой ранний путь:

Позвольте мне показать вам, что я сделал в первую очередь:

1 — Планирование

У меня было около 800 фотографий моих картин маслом, которые я нарисовал за последние четыре года или около того.

Это были грубо отредактированные фотографии, но они не были сняты в одном стиле. Некоторые показывают раскрашенную доску или холст полностью, а некоторые снимки крупным планом демонстрируют размытие глубины резкости.

Алгоритм довольно хорошо улавливал оба качества.

Потом я начал играть. Первое заметное качество сгенерированных изображений — их достаточно низкая контрастность. Одно из приложений, которое помогло мне выделить некоторые из эффектов «расплавленной стали», заключалось в нахождении и резкости краев изображений (используйте для этого фильтры Photoshop). Другие операции явно играли с цветовым балансом, уровнями и кривыми.

Это были усовершенствования, призванные сделать двухмерный вывод модели машинного обучения более выразительным. Однако, на мой взгляд, эти сгенерированные изображения не были окончательным результатом, скорее они представляют собой веху в непрерывном визуальном исследовании.

У меня есть склонность рассматривать каждое произведение изобразительного искусства или дизайн как предложение, которое мы замораживаем между. Но потом поток продолжается…

Любой промежуточный момент оказывается лучшим местом для совершения открытий, как я объяснил в своей истории Почему промежуточный момент — это лучшее место для пребывания.

У всякого начала есть конец — в данном случае это неверно. Нет ни начала, ни конца.

2 — Потеряться

В этом эксперименте я некоторое время боролся со сгенерированными изображениями. Сначала в 2D, затем перенос объектов в 3D посредством обработки растровых изображений.

Быстрые тесты по слиянию и морфингу изображений дали прекрасные результаты, но ничего необычного.

Я видел и создавал такие изображения раньше, что, на мой взгляд, немного отнимает их изобретательность. Они выглядят хорошо, но в них нет ни удивления, ни восторга.

Потом перешел на 3D. Я вернулся к одному из генеративных алгоритмов, который сделал меня очень счастливым некоторое время назад.

Этот алгоритм берет изображение и посредством выборки выдавливает его в трехмерное облако точек. Затем я создаю тесселяцию этого облака точек. Как только тесселяция завернута в сетку, появляется что-то звездное.

Я упростил этот алгоритм, чтобы сгенерировать серию облаков.

Большой. Выглядит интересно, особенно в деталях. Правильное освещение и параметры камеры делают его намного сильнее. Отлично, я сделал еще один и еще один на волнистой воде. И ничего другого я не делал.

Я заправился топливом, делая четвертую форму. Проблема заключалась в следующем: богатство разнообразия образов терялось в этом превращении в облака.

Облака не были отличны друг от друга настолько, чтобы выразить богатство, которое было очевидно в сгенерированных изображениях.

Хорошо, дальше.

3 — обнаружение

Это подводит меня к текущему состоянию модели.

Я знал, что должно быть больше цветовых ссылок между сгенерированной картиной ML и отрендеренной формой облака. Да один в один перевод изображения в облачный вид с цветами опять же не работал.

Тогда я решил применить простое правило дизайна: если что-то слишком однородно, то нужно эту преемственность разорвать, введя второстепенный, контрастный элемент.

Первый и второй элементы дизайна должны быть согласованными в своих собственных системах, а также дополнять друг друга, противопоставляя друг другу.

Первым элементом в данном случае стала выдавленная сетка с цветом.

второй элемент появился в виде наводящих на размышления плит перекрытия.

В общем, этот дизайнерский эксперимент создал незнакомую, но связную тектонику, которая позволила мне повторно визуализировать трансформирующиеся изображения, сгенерированные машинным обучением, в формальное воплощение.

Кратко:

Я начал с картин маслом, затем сфотографировал их, чтобы создать набор данных.

Затем я обучил модель машинного обучения (StyleGAN), используя эти фотографии.

Позже я разработал различные модели генеративного дизайна, чтобы выяснить, как я действительно хотел использовать эти изображения.

То, что вы видите в этом видео, является одним из моих ответов: я создал несколько 3D-сетей, которые предлагают незнакомые плавающие архитектурные формы. Они беспочвенны, они происходят из моих картин маслом. Отсюда и название: Беспочвенное машинное обучение | Рисуем облачную тектонику.

Обучение и реализация

Об архитектурном дизайне

Первая пара вещей, которые нужно понять здесь: архитектурный дизайн довольно странный и всеобъемлющий по сравнению с другими дисциплинами дизайна. Особенно по сравнению с дизайном продукта и графическим дизайном.

Что делает архитектуру уникальной, так это в первую очередь ее масштаб, а затем то, как материалы и формы используются для создания определенного типа тектонического предложения.

Эта гравитационно-формальная характеристика оживает в колоссальных масштабах. Именно это делает архитектуру довольно сложной, а результат — монументальным.

Имея опыт архитектурного дизайна и перейдя к дизайну продукта, меня часто спрашивали о различиях между ними.

Это осознание я, вероятно, имел много лет назад, но никогда не имел возможности выразить так ясно. Эти образы заставили меня сделать это.

О машинном обучении

Покопавшись в некоторых простых в использовании инструментах, я увидел, что такого рода визуальные эксперименты связаны с двумя вещами:

Экспансивность и кураторство.

Методы, используемые в машинном обучении, особенно в Style GAN, не сильно отличаются от того, что мы делали с компьютерами до сих пор, и любой, кто способен понять механику, увидит это:

Речь идет о чтении паттернов и генерации паттернов.

Однако машинное обучение может делать это, используя очень большие наборы данных и с меньшим вмешательством человека, и в конечном итоге мы думаем, что в этом есть какой-то интеллект.

Инструменты обнаруживают закономерности, и их способность генерировать широкий спектр выходных данных завораживает многих.

Но в конце, опять же, речь идет только о шаблонах, которые извлекаются с помощью алгоритмов… и еще о НАШЕМ ВИДЕНИИ.

Тогда курирование имеет большое значение. Особенно, если вы используете машинное обучение для обучения моделей разработке и применению стиля, тогда вы должны быть отличным куратором. Только тогда вы сможете подготовить правильный набор данных и создать привлекательные изображения.

То же самое относится и к диффузионным моделям сегодня. Теперь вы должны подсказывать, подходить к этому с умом, но не теряться в мысли, что вы станете мастером-творцом, используя естественный язык.

В конце дня:

Модели машинного обучения и искусственного интеллекта обучаются на ограниченных наборах данных.

… и язык двусмысленный.

Но то, что видят глаза, бесценно.

Итак, успокойтесь. Если вы дизайнер, проектируйте С ним, если хотите играть. просто играть. Это поиск способов создавать более восхитительные и значимые впечатления для себя и других…