Креативные инструменты в мире после «глубоких фейков»

Даже если все исследования в области искусственного интеллекта завтра остановятся, у нас все равно будет более чем достаточно кинетической энергии, запертой в существующих моделях, подходах и данных, чтобы обеспечить второе возрождение изобразительного искусства. Возможности визуального творчества для людей с помощью ИИ будут огромными, проницаемыми и доступными.

Да, это правда, что вы можете мысленно заменить фразу« ИИ на программное обеспечение » и часто имеете более интеллектуально честное описание. Но в то же время само программное обеспечение до недавнего времени не понимало семантику человеческого опыта сколько-нибудь значимым образом, и это медленное, но важное развитие.

Когда я работал исследователем машинного обучения в Google, я был одержим мыслью о том, что, хотя поиск может выдать миллионы результатов, скажем, по запросу «яблоко», концептуальное понимание этого термина алгоритмом не было даже отдаленно человеческим. Алгоритм никогда не был в магазине Apple в Хьюстоне и никогда не укусил спелый Honeycrisp. Хотя результаты всегда очень кликабельны, это приводит к нечеловеческой точности в контексте: поиск «яблоко» возвращает компанию, поиск «яблоки» возвращает фрукт.

Пристрастие Google к машинному языку по сравнению с человеческим языком имеет непреднамеренные человеческие жертвы, поскольку кодированный язык открывает глубокие кроличьи норы и разделенные реальности.

В случае творческих инструментов, и особенно в случае визуальных креативных инструментов, такая точность уже является огромным ограничением: программное обеспечение, которое делает с пикселями и многоугольниками именно то, что сказал пользователь, совершенно не обращая внимания на что на самом деле имел в виду пользователь.

Путь вперед - это «умные» функции, которые позволяют получить некоторые знания о визуальном контексте: в Photoshop заливка с учетом содержимого часто лучше, чем исцеляющая кисть, магнитное лассо часто лучше, чем выделение простой рамкой и т. Д.

Я хочу задать вопрос: что происходит, когда холст сам понимает визуальный мир в человеческих терминах и может извлекать уроки из человеческого намерения в контексте?

Художественное развитие и прерывистое равновесие

Мы становимся тем, что видим. Мы формируем наши инструменты, а затем наши инструменты формируют нас.

- Отец Джон Калкин, SJ

Эпохи художественного расцвета в истории человечества всегда были связаны с новаторскими инструментами и доступной методологией. Волны художественного развития перемежаются историей инструментов, используемых для создания искусства: цветной фотографией (1861; Джеймс Клерк Максвелл), постоянным точечным освещением (1420; Мазаччо), линейной перспективой (1413; Филиппо Брунеллески), химической революцией в мире искусства. масляная живопись мокрое по мокрому (около 1400; Ян ван Эйк), вплоть до первого синтеза синего пигмента (около 2500 г. до н.э .; египетские химики смешали известняк, малахит и кварц, обожженные до 900 ℃) и папируса ( около 4000 г. до н.э.).

Поскольку захваченные, «нарисованные» и синтезированные значения пикселей можно легко комбинировать, цифровое изображение стирает привычные различия между рисованием и фотографией. [Изображение] может быть частично отсканированной фотографией, частично затененной перспективой, синтезированной компьютером, и частично электронной «картиной» […] мы вступили в эпоху электробриколажа.

- Уильям Дж. Митчелл, «Переконфигурированный глаз», MIT Press, 1992.

У нас пока нет возможности оглянуться назад, чтобы описать технологический сдвиг, который происходит сегодня в средствах визуального творчества. Лично я неравнодушен к термину Уильяма Митчелла «электробриколаж»: поиск нужных пикселей, чтобы вызвать эмоцию не только на одной новой фотографии, но и комбинировать их с пикселями из обширных библиотек существующих фотографических материалов, а также чисто синтезированных. . Возможно, более решительным будет просто принять медленное чрезмерное обобщение термина глубокие подделки.

Глубокие подделки как электробриколаж

Глубокие подделки возникли как своего рода зеленый экран с учетом содержимого для наложения лиц на существующие видео, позволяющий семантическую обработку и импровизацию с существующими материалами, что ранее было возможно только для самых опытных художников по видеоэффектам.

Технология быстро добавила новые измерения к вопросам сходства и согласия и вызвала озабоченность законодателей и разведывательного сообщества по поводу ее очевидного использования, чтобы запутать и ослабить нашу и без того слабую власть над реальностью, основанной на фактах [ссылка].

Но глубокие подделки также приобрели настоящих приверженцев в средствах массовой информации и нашли свое отражение в конвейерах коммерческого производства. Например, вот Райан Стэйк, режиссер новейшего музыкального видео @charli_xcx, где певец отдает дань уважения Spice Girls и другим группам:

У команды было ограниченное время для съемки видео, поэтому они использовали глубокие подделки, чтобы избежать необходимости наряжать двух певцов как каждого члена группы.

а также

Думаю, мы обязательно увидим этого еще. Это совершенно потрясающий инструмент.

Будущее визуальных средств массовой информации - это увеличение стоимости продукции в более короткие сроки и меньшие бюджеты; микротаргетинг массовых коммуникаций с большей точностью новые персонализированные творческие каналы. Например, Adobe оценивает, что создатели контента и бренды несут ответственность за создание в 10 раз больше контента, чем в прошлом году, но с таким же количеством сотрудников.

Однако процесс создания контента остается удручающе ручным: художники тратят гораздо больше времени на исполнение, чем на создание идей.

Экономика творения

Потенциал визуального создания с использованием искусственного интеллекта - это гораздо больше, чем просто автоматизация простых повторяющихся задач. Этот скачок в наших инструментах означает новые, удобные способы творить и возиться - новое, демократизированное творчество. Я не умею рисовать, но у меня есть эстетические предпочтения, и я могу работать вместе с глубокой нейронной сетью, чтобы набрать их оптом.

Заменит ли «ИИ» человеческое творчество - это не правильный вопрос. Важно то, как в конечном итоге ресурсы будут перераспределены в соответствии с открытыми новыми возможностями. Скотт Бельски считает, что визуальная коммуникация - это будущее труда:

По мере того, как рабочие места становятся все более автоматизированными или коммерческими, будущее труда благоприятствует тем, кто обладает творческими способностями и навыками визуального общения. Это одна из причин, по которой я вернулся в @Adobe, и почему нам нужно сделать инструменты для творчества более доступными и мощными.

И это часть большего поворота, который мы наблюдаем в технологическом секторе: переход от «экономики внимания» (Интернет как потребление) к «экономике созидания» - Интернет как производство.

Возможно, это анекдотично, но кажется, что за последние несколько лет произошел некоторый переход от «экономики внимания» к «экономике творчества»: @airtable, @figmadesign, возрождение @github под MS, @Patreon и т. Д.

- Патрик Коллисон @patrickc (ссылка)

Миллионы крошечных слайдеров

Как будут выглядеть эти новые творческие инструменты? С десятками или даже сотнями миллионов параметров большинство моделей глубокого обучения являются чрезмерно определенными, избыточными и невероятно сложными. В традиционной парадигме мы предоставили художникам полный контроль: один ползунок регулировки для каждого параметра алгоритма. Такие вещи, как экспозиция, контраст и радиус размытия. Однако в эпоху глубоких подделок ответ - не «миллионы крошечных ползунков регулировки», по одному на значение каждого нейрона.

Скорее, я считаю, что есть два класса примитивов пользовательского интерфейса, которые окажутся наиболее интересными:

  1. Корректировка по аналогии, например, «сделайте это более похожим на это» или «сделайте так, чтобы отношения между этими двумя вещами соответствовали отношениям между этими двумя другими», и
  2. Структурированное исследование, например, отображение «ползунков настройки» более высокого порядка, которые объединяют все концепции, такие как поза лица, цвет волос или освещение, в одно значение параметра. Выявление такой «скрытой структуры» данных - одна из суперспособностей глубокого обучения.

В конце 2018 года исследователи NVIDIA опубликовали статью, которая позволяет пользователю создавать самые фотореалистичные лица, которые мы видели на сегодняшний день (Архитектура генератора на основе стилей для генеративных состязательных сетей [видео]; Теро Каррас, Самули Лайн, Тимо Айла).

В дополнение к созданию фотореалистичных лиц по аналогии (например, сделайте это лицо A похожим на другое B), можно показать, что «скрытая структура» этих моделей кодирует физические ограничения, связанные с миром. Например, вращения в трехмерном пространстве:

Замечательным свойством генераторов на основе стилей является то, что они научились вращать трехмерные точки обзора вокруг таких объектов, как автомобили. Такие значимые скрытые интерполяции показывают, что модель узнала о структуре мира.

- Ян Гудфеллоу

Скрытую структуру можно метафорически представить как ползунки семантической или структурной настройки , управляющие абстрактными свойствами объекта или сцены: возрастом, полом, ориентацией в пространстве, условиями освещения и т. Д.

Мы можем научиться использовать эту скрытую структуру, применяя дополнительные физические ограничения, например, синтезировать движение, которое никогда не было зафиксировано во время съемок фильма, на одном примере (Everybody Dance Now [video]; Чан, Чжоу и Эфрос).

Аналогичные парадигмы пользовательского интерфейса существуют для «переноса стиля» - класса алгоритмов, которые могут сопоставлять некоторые виды художественного и иллюстративного стиля между исходным и конечным изображениями (например, палитры, контуры кисти и цветовые области).

Эти алгоритмы еще не подходят для фотореалистичного синтеза, но могут использоваться в ограниченных областях для замены текстур и нормализации цвета для всех ресурсов.

Более того, скрытые измерения стилевого пространства могут быть исследованы художником посредством интерполяции между архетипическими стилями (Архитектура генератора на основе стиля для генеративных состязательных сетей; Даан Винен, Корделия Шмид, Жюльен Майраль).

Соответствие цвета и стиля примером является более естественным выражением художественного замысла и больше соответствует нашему визуальному восприятию, чем точные инструменты, такие как «кривые» или «корректировка гистограммы».

Грань

Facet создает студию редактирования, ориентированную на контент, которая устраняет разрыв между инструментом и помощником, позволяя художникам, фотографам и ретушерам исследовать новые идеи непосредственно с точки зрения визуальных концепций человеческого уровня: лица, одежда, оттенки кожи, фон и т. Д. .

Подобно тому, как вы можете просматривать изображения Getty для нужной части стоковой фотографии или нанимать фотографа или модельера, известного своей эстетикой, Facet studio позволяет вам «набрать» нужные вам изображения с помощью комбинации аналогии и поиска по скрытому визуальная структура.

Facet studio дает художнику полный контроль над неподвижными изображениями, фотосессиями и видеоконтентом, синтезируя локальные фотографии, стоковые фотографии, рендеринг и генеративные модели, заменяя миллионы крошечных слайдеров более гуманистическим направлением по аналогии и примеру.

В конечном итоге Facet помогает открыть будущее Митчелла, в котором «захваченные, нарисованные и синтезированные значения пикселей могут быть легко объединены». Говоря более конкретно, мы считаем, что такой «электробриколаж» можно свести к чему-то гораздо более простому: поиску в пространстве изображений, которые еще не существуют.

Я немного обрисовал нашу философскую позицию по новым вопросам и огромному потенциалу для творческой работы. Если вас интересует будущее фото, покадровой анимации и редактирования видео с учетом содержимого, у нас есть чем поделиться с вами. Также Facet нанимает! Так что не стесняйтесь, напишите нам по электронной почте.

Подпишитесь, чтобы узнать больше о будущем творческой деятельности на https://facet.ai

—jr