Обнаружение DeepFake и других методов подделки изображений

Прогресс в методах подделки изображений, таких как дипфейки, также требует совершенствования методов обнаружения подделок. Эта статья обобщает вклад бумаги по обнаружению подделок изображений.

Проблема

Быстрый прогресс в создании синтетических изображений и манипулировании ими достиг точки, когда возникают серьезные опасения по поводу последствий для общества. В лучшем случае это приводит к потере доверия к цифровому контенту, но потенциально может нанести дополнительный вред, распространяя ложную информацию или фальшивые новости.

Решения и вклад

В документе исследуется реалистичность современных манипуляций с изображениями и то, насколько сложно их обнаружить автоматически или людьми. При этом были сделаны следующие взносы:

FaceForensics++: создана новая крупномасштабная база данных, содержащая более 1,8 миллиона изображений, для обнаружения подделок.

2. Была проведена оценка современных методов обнаружения подделок (как человеческих, так и автоматических), адаптированных к лицевым манипуляциям.

FaceForensics++

Классические наборы криминалистических данных были созданы со значительными ручными усилиями в строго контролируемых условиях. Хотя было предложено несколько наборов данных, включающих манипуляции с изображениями, лишь немногие из них также касаются важного случая видеозаписи. Самый обширный набор данных для общих манипуляций с изображениями состоит из 50 000 поддельных изображений (как локальных, так и глобальных манипуляций) и около 500 поддельных видео.

Напротив, FaceForensics++, являющийся расширением набора данных FaceForensics, содержит 1,8 миллиона изображений из 4000 поддельных видео. Чтобы имитировать реалистичные сценарии, видео были собраны из дикой природы, в частности с YouTube. С некоторой ручной проверкой, 1000 видеофрагментов, содержащих 509 914 изображений, которые мы используем в качестве исходных данных.

Для создания поддельных данных используются два подхода на основе компьютерной графики (Face2Face и FaceSwap) и два подхода на основе обучения ( Были выбраны DeepFakesи NeuralTextures). Для всех четырех методов в качестве входных данных требуются пары видео исходного и целевого актера. Конечным результатом каждого метода является видео, состоящее из сгенерированных изображений.

FaceSwap

FaceSwap – это основанный на графике подход к переносу области лица с исходного изображения на целевое. FaceSwap принимает исходное и целевое (лицо) изображения в качестве входных данных и проецирует исходное лицо на целевое лицо, используя ориентиры на каждом лице. Для создания поддельных видео 1000 исходных видео делятся на исходную и целевую пары, после чего FaceSwap выполняется для видеопар по кадрам.

Лицо2Лицо

Face2Face – это система реконструкции лица, которая переносит выражения исходного видео в целевое видео, сохраняя при этом личность целевого человека. Первоначальная реализация основана на двух входных видеопотоках с ручным выбором ключевых кадров. Для создания поддельных видео первые кадры нетронутых видео используются для создания временной идентификации лица (т. Е. 3D-модели) и отслеживания выражений на оставшихся кадрах. Из исходных видео извлекаются «параметры выражения», которые описывают выражения каждого кадра, и переносятся на целевые исходные видео для получения поддельных реконструкций.

DeepFakes

DeepFake — это методы замены лиц, основанные на глубоком обучении. Доступны различные общедоступные реализации DeepFake, в первую очередь FakeApp и faceswap github. С помощью этих методов лицо в целевом видео можно заменить лицом, которое наблюдалось в исходном видео. Для создания поддельных видео пары исходных и целевых видео передаются в качестве входных данных в faceswap github.

Нейронные текстуры

NeuralTextures использует исходные видеоданные для изучения нейронной текстуры целевого человека, включая сеть рендеринга. Для создания поддельных видео используется GAN-потеря на основе патчей, как это используется в Pix2Pix. Этот подход основан на отслеживаемой геометрии, которая используется во время обучения и тестирования. Для создания этой информации используется модуль отслеживания Face2Face. Изменяются только выражения лица, соответствующие области рта, т. е. область глаз остается неизменной.

Обнаружение подделки документов

Чтобы оценить работу людей в задаче обнаружения подделок, было проведено пользовательское исследование с 204 участниками, состоящими в основном из студентов университетов компьютерных наук. После краткого ознакомления с двоичной задачей пользователям предлагается классифицировать случайно выбранные изображения из нашего тестового набора, состоящего из поддельных и исходных изображений. Пользователям показывают изображения в течение нескольких секунд, после чего их спрашивают, было ли изображение поддельным или настоящим. С 60 изображениями на каждого посетителя было собрано 12240 человеческих решений.

Пользовательское исследование содержало поддельные изображения всех четырех методов манипуляции и исходные изображения. В этой настройке отмечается, что Face2Face и NeuralTextures было особенно трудно обнаружить людям-наблюдателям, поскольку они не вносят сильных семантических изменений, внося лишь тонкие визуальные артефакты в изображение. в отличие от методов замены лица. Текстуры NeuralTextures кажутся особенно сложными для обнаружения, поскольку точность обнаружения человека ниже случайного и увеличивается только в сложной задаче с низким качеством.

Автоматическое обнаружение подделки

Поскольку целью было обнаружение подделок изображений лица, используется дополнительная информация о предметной области, которую можно извлечь из входных данных. С этой целью используется современный метод отслеживания лица для отслеживания лица на видео и выделения области лица на изображении. Консервативная обрезка используется вокруг центра отслеживаемого забоя, закрывая реконструированный забой.

Первый метод, используемый для обнаружения подделок, использует элементы ручной работы. Затем эти функции используются для обучения классификатора линейной машины опорных векторов (SVM). Этот метод был победителем в первом конкурсе IEEE Image Forensic Challenge. В качестве входных данных для метода предоставляется центральная вырезка лица размером 128 × 128. В то время как ручной метод значительно превосходит человеческую точность на необработанных изображениях, он с трудом справляется со сжатием, что приводит к точности ниже человеческих возможностей для видео низкого качества.

Для обнаружения по изученным признакам оцениваются пять архитектур нейронных сетей, известных из литературы, для решения задачи классификации. Эти методы основаны на сверточных нейронных сетях (Cozzolino, Bayar and Stamm, Rahmouni, MesoInception-4, XceptionNet).

На приведенном выше рисунке показаны результаты задачи обнаружения подделки двоичных файлов с использованием всех сетевых архитектур, оцениваемых отдельно по всем четырем методам подделки и на разных уровнях качества видео. Все подходы обеспечивают очень высокую производительность на необработанных входных данных. Производительность падает для сжатых видео. Нейронные сети лучше справляются с такими ситуациями, поскольку XceptionNet может достигать убедительных результатов при слабом сжатии, сохраняя при этом приемлемую производительность на изображениях низкого качества.

Чтобы сравнить результаты пользовательского исследования с производительностью автоматических детекторов, варианты обнаружения также были протестированы на наборе данных, содержащем изображения всех методов манипуляции. Мы отмечаем, что автоматические детекторы значительно превосходят человеческие возможности. Чтобы оценить преимущества первоначально выполненного отслеживания лица и консервативного кадрирования, XceptionNet также был обучен на полном изображении. Заметим, что это приводит к гораздо более низкой точности

Вывод

В то время как современные методы манипулирования изображениями лица демонстрируют ошеломляющие результаты, мы демонстрируем, что их можно обнаружить с помощью обученных детекторов подделок. Особенно обнадеживает тот факт, что сложный случай с видео низкого качества можно решить с помощью подходов, основанных на обучении, когда люди и созданные вручную функции демонстрируют трудности.