Deep Fictions: эксперименты в области искусственного интеллекта и переосмысление фантастики

Обучение ИИ созданию портретов персонажей из известных романов на основе их текстовых описаний.

Наша культура, окружающая среда и предубеждения - все это помогает формировать образы, которые мы видим мысленным взором при чтении текстов - например, о главных героях романа. Чтобы увидеть часто проблематичные изображения любимых персонажей, не нужно смотреть дальше, чем обеление кинематографа Голливудом. Мне было любопытно, могут ли алгоритмы машинного обучения служить существенным вмешательством в этот перевод текста в изображение.

Может ли генеративное повествование по мере совершенствования ИИ расширить наше представление о том, кого мы представляем в популярных рассказах?

Чтобы изучить этот вопрос, я создал проект под названием Deep Fictions. В проекте используются нейронные сети и обработка естественного языка для создания портретов персонажей известных романов на основе их текстовых описаний. В ходе этого исследования я хотел выяснить, можно ли разнообразить однородные наборы данных с помощью генеративных алгоритмов нейронных сетей, и изучить, как такие алгоритмы могут отражаться на нашем собственном воображении персонажей из популярной культуры.

Конвейер данных и алгоритмов

Для этого проекта требовалось два типа наборов данных: корпус романов и большая коллекция помеченных изображений лиц. Для текстовых данных я использовал книги из Project Gutenberg, который состоит из книг, находящихся в свободном доступе. Данные о лицах были реализованы с помощью набора данных CelebA, который содержит более 200 000 изображений лиц знаменитостей, каждое из которых имеет 40 двоичных атрибутов. Важно отметить, что набор данных CelebA содержит преимущественно белых знаменитостей, что будет учтено позже при разработке нейронной сети. Кроме того, у отмеченных атрибутов отсутствует нюанс, например, приписывание мужского или женского пола всем изображениям.

При разработке этого проекта использовались 2 основных метода: Word2Vec и Generative Adversarial Networks (GAN). Word2Vec - это процесс, который может определять слова, похожие по контексту, в большом корпусе текста. Было полезно найти прилагательные, которые точно описывают персонажей романов. Например, в «Дракуле» Брэма Стокера два слова, описывающие графа Дракулу, - «ужасный» и «преступный».

Генеративная состязательная сеть (GAN) - это алгоритм, состоящий из двух нейронных сетей, ведущих постоянную войну на истощение: генератора и дискриминатора. Мы можем думать о генераторе как о подделке произведений искусства, а о дискриминаторе как об искусствоведе. Дискриминатор в этом случае обучается на наборе данных художественных изображений. Генератор создает изображения, используя шум в качестве входных данных, и пытается обмануть дискриминатор, чтобы он поверил, что изображение - настоящее произведение искусства. Первоначально дискриминатор отклоняет изображение как поддельное, позволяя генератору лучше узнать, как выглядит реальное изображение. Со временем генератор создаст изображение, достаточно реалистичное, чтобы обмануть дискриминатор.

Для этого проекта я использовал InfoGAN, тип GAN, который вводит как встроенную метку, так и шум в генератор, чтобы направлять генератор для создания изображений с определенными атрибутами. В данном случае эти атрибуты были метками, связанными с каждым изображением в наборе данных CelebA. Если вы знакомы с преобразованием изображения в текст, например, с генерацией текста «желтый» и «фрукт» на основе изображения банана, этот алгоритм работает в обратном направлении (преобразование текста в изображение), создавая изображение. фрукта с учетом набора прилагательных.

Получение описательного

В этом проекте я сосредоточился на двух персонажах из двух отдельных романов: Дракуле из одноименного романа Брэма Стокера и Элизабет Беннет из Гордость и предубеждение Джейн Остин. Я выбрал эти романы, потому что они вошли в число двух самых популярных в «Проекте Гутенберг», широко известны и были экранизированы по фильмам.

Первым шагом было найти слова, описывающие этих персонажей из корпуса Гутенберга. Я создал модель Word2Vec, используя подмножество из 4000 книг, и нашел прилагательные, которые находились в непосредственной близости от каждого символа, используя косинусное сходство. Например, ближайшими прилагательными к Дракуле были: «преступник», «гипнотический», «таинственный», «ужасный» и «скромный».

Гримасничать

Следующим шагом было использование этих прилагательных для поиска наиболее похожих меток лиц, опять же с использованием косинусного сходства из набора данных CelebA. Например, предыдущие прилагательные Дракулы переводились как «черные волосы», «старый», «мужчина», «темные глаза» и «серьезный». Затем я создал усредненное лицо из этих отфильтрованных изображений в качестве основы. Полученное изображение отражало только изображения в наборе данных CelebA и не имело специфичности, поэтому следующая итерация была направлена ​​на создание совершенно нового лица с помощью InfoGAN.

После значительного количества дорогостоящего времени обработки InfoGAN создал портреты для каждого персонажа.

Сеть генератора GAN можно настроить для создания более фотореалистичных изображений. Однако я предпочел сделать ставку на новые возможности - выбрать неожиданные, несколько абстрактные портреты Дракулы и Элизабет Беннет вместо ожидаемых фотореалистичных.

Ни одно из этих окончательных изображений не присутствует в наборе обучающих данных CelebA - на оба эти обучающие данные влияют через сеть GAN, но они изменяются различными параметрами в полностью «снятый» портрет. Я был удовлетворен и удивлен тем, что выходные изображения были намного более разнообразными и неоднозначными, чем данные обучения. Я смог создать множество разных лиц для каждого персонажа, изменив ввод GAN.

Хотя эти сгенерированные портреты могут не отражать изображения, которые мы представляли, они остаются верными лицам, которые алгоритм видел, и описаниям персонажей в соответствующих романах. Возможно, стоит задуматься, почему они так сильно отличаются от лиц, которые мы себе представляли.

Заслуженная критика машинного обучения сосредоточена на том, как важные модели обобщают совокупности и приравнивают исходные данные к фактам. Поскольку различные секторы продолжают полагаться на принятие решений на основе данных, а такие модели становятся критически важной инфраструктурой, эти проблемы становятся все более актуальными. Deep Fictions размышляет о том, можно ли смоделировать наше предвзятое воображение, и исследует потенциальные слепые пятна, которые этот процесс может помочь нам выявить.