Забавно вспоминать 2022 год, не так ли? 40 лет назад; Это год, когда, я бы сказал, начался конец художников.

Начали свое завоевание ИИ, создающие изображения, или, ну, они уже существовали в течение 8 лет на тот момент, но 2022 год, безусловно, был годом, когда они стали широко известны. Теперь, 40 лет спустя, понятие искусства, создающего человека, зарезервировано для нишевых инди-групп и считается почти эзотерическим.

возможно, что человек через 40 лет сказал бы о феномене искусственного интеллекта, генерирующего изображения. «Но, Ларс, что такое ИИ, генерирующий изображения?? И будет ли будущее, описанное выше, нашим собственным будущим?» Я слышу вас громко и ясно, но прежде чем я смогу ответить на этот вопрос, мы должны отправиться, хотя и ненадолго, в не столь уж далекое прошлое.

Пух (хотя и интересный)

Ян Гудфеллоу вместе со своими коллегами: Жаном Пуже-Абади, Мехди Мирзой, Бинг Сюй, Дэвидом Варде-Фарли, Шерджилом Озайром, Аароном Курвиллем и Йошуа Бенжио представили идею генеративно-состязательных сетей (GAN) в своей статье с метким названием: Генеративно-состязательные сети. Эта статья набрала около 2600+ цитирований 1 и считается знаковой статьей. Три года спустя первые лица были созданы с помощью техники, изложенной в статье (3), а через 4 года приведенное ниже изображение, сгенерированное ИИ, было продано на аукционе за 432 500 долларов США (2).

В 2019 году была создана первая GAN для создания музыки, что задокументировано в этом репозитории GitHub: Условная нейронная мелодия (17). Всего год спустя, это 2020 год для справки, NVIDIA использовала эту технологию для воссоздания Pacman, просто глядя на то, как в него играют (2). Да, вы правильно поняли, GAN уже использовались 2 года назад для создания видеоигры. Я думаю, что мы начинаем видеть здесь тенденцию, а именно то, что GAN можно использовать для безумного множества задач. Продолжая, всего два года спустя один из самых больших скачков в технологии был сделан, когда Open AI, да тот Open AI, который основал Илон Маск, объявил о DALL-E GAN в одном из своих сообщений в блоге (18).

DALL-E, который теперь заменен последующим DALL-E 2, стал огромным шагом вперед для технологии, поскольку он мог создавать точные изображения из текстового ввода. Это ясно показало перспективность технологии, и, хотя подобные алгоритмы уже существовали ранее, ни один из них не был столь продвинутым. (18)

Детализация этих изображений была ошеломляющей, и DALL-E вместе с другими новыми ИИ, создающими изображения на основе GAN, похоже, вызвали почти всеобщее любопытство, хотя люди, похоже, сильно расходятся во мнениях относительно того, принесет ли эта технология в конечном итоге большую ценность или будет иметь ужасные последствия. .

Сегодня существует несколько высокоразвитых ИИ-генераторов изображений. Некоторые популярные из них — Генератор глубоких снов, Полупутье и Стабильная диффузия. Как мы можем видеть таким образом:

Технология развивается с беспрецедентной скоростью, и о том, что будет дальше, можно только догадываться. Только одно можно сказать наверняка; Это будет большой.

Источники: 1, 2, 3, 4, 5, 6, 17, 18.

Хватит пуха

Давайте поговорим о технике

Итак, как это работает? Чтобы ответить на этот вопрос, я объясню методы, изложенные в оригинальной статье, которая положила начало генеративно-состязательным сетям, тем же, что упоминался ранее в части истории (1).

Идея состязательных сетей возникла потому, что сети-дискриминаторы в то время были довольно развиты, но сети, которые сами что-то генерировали, все еще были в значительной степени неэффективны. Идея заключалась в том, чтобы использовать мощность этих дискриминаторных сетей для обучения генераторной сети (7). Работа этой генераторной сети будет заключаться в создании реалистичных картинок/изображений, которые выглядят как искусство. Дискриминаторные сети, для контекста, представляют собой ИИ, которые пытаются классифицировать различные категории входных данных, также называемых различением этих входных данных; в данном случае это сгенерированные компьютером (поддельные) и нарисованные художником/реальные изображения (настоящие).

Для этого вы сначала собираете набор данных с реальными картинками. Затем у вас есть функция D, которая является дискриминатором, и функция G, которая является генератором. Работа D состоит в том, чтобы отделить настоящие изображения (изображения из набора данных) от поддельных изображений (изображений, созданных генератором). Они называются прогнозируемые ярлыки. Работа G заключается в том, чтобы заставить D классифицировать свои «поддельные» изображения как «настоящие». Другими словами:

Генеративно-состязательные сети в основном состоят из функции дискриминатора, конкурирующей с функцией генератора, с конечной целью улучшения функции генератора.

На приведенном выше рисунке мы видим, как дискриминатор делает именно это, пытаясь различать поддельные изображения (поступающие от генератора) и настоящие изображения (поступающие из набора данных , хотя набор данных на диаграмме не упоминается). Эти классификации настоящих или поддельных называются «прогнозируемыми метками».

На приведенной выше диаграмме есть два элемента, которые мы еще не обсуждали: массив шумов и потери. Массив шума представляет собой случайное значение, передаваемое G (ввод G), которое он преобразует (сопоставляет) с изображением. Это сделано для того, чтобы G каждый раз создавал разные изображения, а не одно и то же изображение снова и снова. Потери, с другой стороны, в общих чертах означают разницу между тем, что произвел G, и тем, что он должен производить в идеале. Это значение помещается в своего рода функцию градиентного спуска, которая итерирует/улучшает генератор.

Чтобы проиллюстрировать это далее, давайте взглянем на функцию ценности, описанную в статье.

Массив случайного шума/шума обозначается следующим образом:

Главное, что нужно понять об этой функции ценности, состоит из двух частей. Во-первых: это

означает, что D пытается максимизировать функцию ценности. Он пытается максимизировать классификацию реальных данных как реальных данных (первый термин), а фальшивых данных — как фальшивых данных (второй термин).

А во-вторых: что

означает, что G пытается минимизировать второй член функции. Только второй термин, потому что первый термин не включает G. Это вполне логично, так как первый член обозначает шанс догадаться, что реальные данные реальны, на что G повлиять не может, так как это прерогатива D, тогда как второй термин обозначает вероятность того, что D классифицирует поддельные данные как поддельные данные. Когда G минимизирует этот второй член, он увеличивает шансы своих изображений быть классифицированными как настоящие, что в теории, а также на практике означает, что он создает более реалистичные и лучшие изображения.

Для наглядности документ также содержит несколько графиков, показывающих, что происходит с D и G по мере их оптимизации:

Здесь Z — случайный шум.

Зеленая кривая — это сопоставление (прямые черные линии) Z (случайный шум) изображениям с помощью G. Мы можем просто назвать его G.

Черная пунктирная кривая — это набор данных (реальные изображения).

Синяя пунктирная кривая — D. Он показывает долю изображений, которые считаются реальными или поддельными. Чем выше кривая, тем более реальные предсказания изображения она делает.

На рисунке а D и G не обучены.

На картинке б D обучен в совершенстве. Это показано тем, что он предсказывает правильное соотношение реальных и поддельных изображений. Примером этого является его уменьшение, когда кривая G увеличивается, а кривая набора данных уменьшается.

На рисунке c G прошел одну итерацию обучения. Он пытается стать более похожим на набор данных, чтобы D подумал, что это реально. Становление более похожим на набор данных означает создание более реалистичных изображений. Таким образом, мы также можем видеть кривую смещения D.

На рисунке d G обучен до совершенства и, таким образом, находится на вершине обучающих данных. Мы также можем видеть, что D превратился в прямую линию, показывая 50/50 шансов выбора настоящего или поддельного для любого изображения. Это показывает, что D теперь видит изображения как из набора данных, так и из генератора как неразличимые. Теперь генератор может создавать очень реалистичные изображения.

Это базовая реализация генеративно-состязательной сети, но после ее создания разными людьми было сделано множество различных вариаций. Некоторые из них включают изменение способа работы алгоритма, обеспечение работы функции градиентного спуска таким образом, что либо D, либо G повторяются чаще, чем другие, или предоставление генератора и/или дискриминатор с дополнительной информацией, например, в условных ганах (CGAN).

Источники: 1, 7, 9

Огромный мир возможностей

Теперь эта статья полностью посвящена GAN, создающим изображения, но ничто не мешает им создавать другие типы мультимедиа. Например, GAN использовались для преобразования текста в речь, как описано в статье 2017 года статистический параметрический синтез речи с использованием генеративно-состязательных сетей в рамках многозадачной среды обучения (10), и могут использоваться в электронной коммерции для персонализации взаимодействия с клиентами (11). Их можно заставить преобразовывать один тип медиа в другой, например аудио в изображения и наоборот (19).

В области изображений они не ограничиваются только созданием 2D-изображений, они также могут манипулировать ими и даже создавать 3D-изображения! (13) Они могут выполнять векторную арифметику, что в основном означает сложение и вычитание изображений друг из друга, создавая объединенное результирующее изображение (14).

Отношения GAN с артистами

Из-за сложности этих сетей они могут производить искусство на уровне, который некоторые люди назвали бы тем же, что и люди-художники. Нетрудно представить себе будущее, в котором, когда эти GAN станут полностью мейнстримными, а доступ к ним станет очень простым, не будет необходимости или, по крайней мере, уменьшится потребность в художниках-людях для создания искусства.

Однако, по мнению многих экспертов, это необоснованные опасения. Татьяна Мехия, бывший руководитель отдела маркетинга продуктов Adobe Sensei, заявила, что творчество глубоко человеческое, и ИИ не может заменить человеческую искру. Исследование, проведенное Adobe, даже показало, что ИИ не может воспроизводить человеческое творчество и на самом деле может использоваться только как инструмент для улучшения искусства, создаваемого людьми-художниками. (15)

Из-за этого GAN могут фактически оказаться инструментом в наборе инструментов художников, а не их кончиной. Немецкий художник Марио Клингеманн, например, выразил в интервью The Verge после того, как его работы, созданные GAN, будут выставлены на аукцион, о своем намерении продолжать интегрировать GAN в свое искусство. Для Клингеманна найти способ включить этот аспект GAN в свои работы — это, по крайней мере, то, что он рад продолжать исследовать. - Грань (16).

Все это упускает из виду один жизненно важный фактор и упускает из виду фактор, который мы просто не можем не заметить. Мнение о том, что ИИ не может быть творческим в той же степени, что и люди, может быть верным в текущей технологической среде, но в будущем мы увидим совершенно новые и улучшенные модели, некоторые из которых, возможно, даже не будут GAN. И это, в сочетании с улучшением вычислительной мощности, может полностью изменить эту область так, как мы даже не можем себе этого представить. Компьютеры могут однажды оказаться такими же творческими, как сегодня люди, хотя в настоящее время они таковыми не являются. Если это произойдет, будущее людей-художников снова окажется в подвешенном состоянии и не в безопасности.

О НЕЕЕЕТ, КОНЕЦ (статьи) БЛИЗК!!

Из первоначальной идеи создания дискриминатора и генератора, которые конкурируют друг с другом, чтобы в конечном итоге создать генератор, который может создавать реалистично выглядящие изображения, GAN сами по себе превратились в целый жанр ИИ. В связи с этим многие начали опасаться, что GAN (генеративно-состязательные сети) сделают людей-художников устаревшими из-за их способности создавать изображения и произведения искусства. Однако это кажется необоснованным мнением, поскольку даже при всей своей вычислительной мощности и умном дизайне они все еще не могут воспроизвести человеческое творчество;они не могут воспроизвести эту человеческую искру. Вдобавок к этому растет мнение, что GAN на самом деле помогут художникам, позволяя им включать в свое искусство визуальные эффекты, созданные компьютером.

GAN не станут гибелью для художников, они на самом деле окажутся отличным подарком.

Источники:

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19