Создание первого в мире генератора раскрасок с искусственным интеллектом: техническое и творческое путешествие

Томас Жакмен

Отказ от ответственности. Эта статья представляет наш первоначальный подход к этой функции и должна рассматриваться как отправная точка. С момента публикации наши методы и технологии претерпели изменения. Мы стремимся предоставлять регулярные обновления о нашем прогрессе и улучшениях, поскольку мы продолжаем расширять возможности Color Pop AI.

В MWM мы внимательно следим за последними технологическими достижениями, связанными с творчеством. В области генерации изображений мы наблюдаем огромный рост возможностей «генеративных моделей» в последние годы. Эти модели ИИ, обученные на больших наборах данных, улавливают сущность базовых данных и становятся способными генерировать новые выборки. Недавние работы объединили генеративные возможности с большими языковыми моделями, ориентированными на понимание письменного текста, что привело к увлекательной форме интерактивности: создание изображения теперь может быть обусловлено предложением, сформулированным пользователем. Это означает, что можно влиять на модель в процессе ее генерации, поскольку модель обучена учитывать запрос входного текста.

Рождение Color Pop AI

Большому сообществу энтузиастов ИИ не потребовалось много времени, чтобы осознать творческую силу этих новых инструментов, привлекая внимание к искусству, созданному ИИ. В MWM мы хотели присоединиться и уже пытались получить результаты с более старыми фреймворками, такими как CLIP+VQGAN, которые позволили нам получить изображения, узнаваемые по их абстрактному и вызывающему воспоминания стилю. Однако диффузионные модели позволили выйти на новый уровень скорости и качества генерации.

В то время как команда машинного обучения работала над техническими спецификациями, необходимыми для использования таких моделей, идея применить эти технологии к приложению Color Pop возникла у дизайнеров MWM, которые были хорошо осведомлены об этих новых тенденциях. Использование ИИ для автоматического создания цветных рисунков стало результатом союза как технических, так и творческих умов.

Как это работает

Мы применили эти модели генерации в контексте создания рисунков книжки-раскраски. Хотя наше приложение Color Pop уже позволяет тысячам пользователей ежедневно выражать свое творчество, раскрашивая рисунки из обширной предопределенной коллекции, что, если пользователь хочет раскрасить что-то, чего нет ни в цифровой, ни в физической форме? Например, что, если они захотят раскрасить свои творческие идеи, например, кота-диджея или кота, едущего на мотоцикле?

Генеративные модели позволили пользователям создавать свои собственные рисунки и предлагать свои идеи, напрямую обращаясь к ИИ. В течение последних нескольких месяцев мы работали над тем, чтобы предоставить нашим пользователям эту систему генерации чертежей «на лету», которая полностью совместима с существующим набором чертежей, разработанным командой мобильного рендеринга MWM. Каждое поколение уникально, и теперь пользователи могут добавлять свои творения в свою коллекцию, раскрашивать их и делиться ими со всем миром.

Используемая нами модель глубокого обучения называется Stable Diffusion. Он был точно настроен на существенном наборе данных для цветных рисунков. Когда пользователь Color Pop отправляет запрос в службу, ИИ на наших серверах генерирует четыре предложения. Заключительный этап постобработки применяется для очистки, повышения разрешения и преобразования изображения для нашего пользовательского набора для рисования, который мы разработали для мобильного приложения.

Проблемы и решения

Первой задачей было достижение хорошего уровня качества с некоторой однородностью стиля в отношении областей окраски. Они должны быть достаточно большими и четко очерченными, чтобы их можно было приятно раскрасить. Добавить функцию машинного обучения в существующее приложение с десятками тысяч пользователей в день непросто. Модель искусственного интеллекта, способная генерировать рисунки, является ресурсоемкой, и необходимо было внедрить специальные стратегии развертывания, чтобы быстро доставлять четыре разных изображения по запросу всем пользователям в мире, избегая ненужной и дорогостоящей перегрузки сервера.

Чтобы решить эти проблемы, мы обучили модель на большом наборе данных внутренних вручную отобранных произведений искусства, уделяя в первую очередь внимание качеству. Затем генеративную модель приводили к желаемому конкретному стилю рисования, опять же с тонкой настройкой на большой коллекции страниц книжки-раскраски, которую мы приобрели за годы существования Color Pop.

Поскольку этот проект оказался масштабным, мы также подошли к нему как к способу дальнейшего укрепления наших внутренних конвейеров и процессов, включая сбор данных, отслеживание и проверку экспериментов, связанных с моделями, интеграцию в пользовательские услуги и инфраструктуры MWM, обслуживание моделей. оптимизация, масштабируемость инфраструктуры и мониторинг производства.

Будущее цветной поп-музыки

Поскольку мы ожидаем следующую версию Color Pop, наша главная цель — постоянно улучшать результаты генерации, чтобы предоставить нашим пользователям еще лучший опыт раскрашивания. Это включает в себя работу по достижению более четких и плавных линий, чего можно добиться, собрав больше данных и проведя дальнейшие эксперименты с генеративными моделями ML. Мы также планируем быть в курсе последних исследований в этой области и обновлять наш сервис лучшими моделями по мере их появления.

Что касается характеристик продукта, у нас есть несколько интересных идей в работе. Одна из возможностей — предложить пользователям возможность создавать раскраски на основе их собственных лиц, что добавит приложению новый уровень персонализации. Мы также изучаем функцию «закрашивания», которая позволит пользователям создавать холсты еще большего размера путем создания расширений исходного рисунка. Хотя эти идеи все еще находятся на стадии исследования, мы в восторге от их потенциала для расширения возможностей Color Pop и предоставления пользователям еще более творческих инструментов для работы.

Об авторе
Томас Жакмен, инженер по машинному обучению в MWM

Создание первого в мире генератора раскрасок с искусственным интеллектом: техническое и творческое путешествие

Рождение Color Pop AI

Как это работает

Проблемы и решения

Будущее цветной поп-музыки

Вопросы по теме