Обучение стабильной диффузии с обниманием лица за 5 минут

Простой способ создавать модные изображения, быстро и бесплатно.

Введение

Hugging Face — поставщик технологий машинного обучения с открытым исходным кодом и платформой. Hugging Face был запущен в 2016 году и имеет штаб-квартиру в Нью-Йорке. Мы посетили его стенд на AI Hardware Summit and Edge AI Summit 2022. Это удивительное сообщество ИИ, которое создает, обучает и развертывает современные модели, основанные на использовании открытого исходного кода в машинном обучении. Он превращает сложные модели машинного обучения в простые приложения.

Почему Hugging Face выдающийся?

Это универсальный магазин для многих продуктов ИИ.
Он выполняется быстрее, чем при использовании локальных вычислительных ресурсов.
Нет необходимости настраивать рабочую среду.
Нет необходимости создавать учетную запись.
Нет необходимости покупать исполнительные токены (плата за использование).

Давайте используем Стабильная диффузия в качестве примера для быстрого и бесплатного создания причудливых изображений. Модель Stable Diffusion была выпущена в сотрудничестве с Stability AI, CompVis LMU и Runway при поддержке EleutherAI и крупномасштабной открытой сети искусственного интеллекта (LAION).

Stable Diffusion имеет открытый исходный код. Он в основном используется для создания подробных изображений на основе текстовых описаний, хотя его также можно применять к другим задачам, таким как закрашивание, перекрашивание и создание переводов изображений в изображения с помощью текстовой подсказки.

Стабильная диффузия (текст в изображение)

Стабильная диффузия — это модель глубокого обучения, преобразующая текст в изображение. Мы используем приглашение, Chinese new year 2023 using ink painting, и генерируются следующие изображения:

В приложении есть необязательное поле для отрицательного запроса, которое имеет дополнительную возможность сообщить модели стабильной диффузии, что мы не хотим видеть в сгенерированных изображениях. Эта функция может быть использована для удаления чего-либо из окончательных изображений.

Мы добавляем отрицательную подсказку, flower, и сгенерированные изображения не имеют цветов:

В дополнительных настройках есть параметр Guidance Scale, который определяет, насколько точно Stable Diffusion будет следовать подсказке при создании изображений. Более высокое значение заставит ИИ быть более строгим и внимательно следовать подсказкам, в то время как более низкое значение даст ИИ больше творческой свободы.

Значение по умолчанию Guidance Scale равно 9. Использование очень высоких значений, таких как 16–20, может привести к поджариванию изображения и другим артефактам. С другой стороны, использование чрезвычайно низких значений, таких как 0–4, может привести к тому, что практически не будет соблюдаться подсказка.

Вот пример с Guidance Scale, установленным на 20,9:

Стабильная диффузия (от изображения к изображению)

Stable Diffusion 2 Depth2Img — это модель глубокого обучения, преобразующая изображение в изображение. Генерация изображения основана как на изображении, так и на подсказке, а окончательные изображения напоминают исходное изображение по цвету и форме.

Мы устанавливаем дополнительные параметры на 4 изображения. Используйте существующее изображение и подсказку A plushie lies on beach для создания 4 изображений:

Добавьте отрицательную подсказку, sky, и одно из сгенерированных изображений не показывает небо.

Добавьте две отрицательные подсказки: sky, cloud, и два из сгенерированных изображений не показывают небо.

Приложение также имеет дополнительное изображение глубины, которое представляет собой простое изображение в градациях серого того же размера, что и исходное изображение, кодирующее информацию о глубине. Полностью белый означает, что объект находится ближе всего к зрителю, а более черный означает, что он находится дальше.

Вот пример с изображением глубины, предоставленным приложением:

Есть ряд расширенных настроек:

Images: количество создаваемых изображений. Значение по умолчанию — 1, максимальное количество — 4.
Steps: контролирует количество итераций удаления шума, которое будет выполнять Stable Diffusion. Чем больше шагов, тем лучше будет результат, но только до определенного момента. В большинстве случаев изображения будут сходиться на 30 шагах и существенно не изменятся на более высоких шагах. Значение по умолчанию — 50.
Guidance Scale: Он определяет, насколько точно Stable Diffusion будет следовать подсказке при создании изображений. Более высокое значение заставит ИИ быть более строгим и внимательно следовать подсказкам, в то время как более низкое значение даст ИИ больше творческой свободы. Значение по умолчанию — 9.
Strength: управляет количеством шума, добавляемого к входному изображению. Это значение от 0,0 до 1,0, где значения, приближающиеся к 1,0, допускают множество вариаций, но также будут создавать изображения, которые семантически не согласуются с входными данными. Значение по умолчанию — 0,9.
Seed: Он отвечает за создание начального шума, который используется для создания изображения. Разные начальные числа будут создавать разные изображения, но использование одного и того же начального значения всегда будет давать одно и то же изображение, даже если вы запускаете процесс генерации несколько раз.

Из нашего исходного изображения он каждый раз генерирует различные плюшевые игрушки. Установите начальное значение 1, и сгенерированные изображения останутся одинаковыми для каждого запуска.

Измените силу на 0,5, мы увидим, что сгенерированные изображения больше похожи на исходное изображение.

Заключение

Мы исследовали стабильную диффузию с помощью Hugging Face. Это простой способ создавать модные изображения, быстро и бесплатно. Stable Diffusion имеет открытый исходный код и имеет возможности преобразования текста в изображение и изображения в изображение.

Хотя DALL·E и Midjourney имеют схожие возможности, они не бесплатны. Стабильная диффузия на обнимающемся лице может быть выполнена немедленно, без входа в систему.

Спасибо за прочтение.

Want to Connect?

If you are interested, check out my directory of web development articles.

Дополнительные материалы на PlainEnglish.io.

Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.

Повысьте узнаваемость и признание вашего технического стартапа с помощью Circuit.