Взгляды, выраженные в этом отчете, являются личными взглядами автора Ахмеда Разека и не должны восприниматься как взгляды или политика BBC.

О социальном воздействии ИИ написано много, но гораздо меньше написано о его творческом потенциале.

Это сообщение в блоге будет посвящено эксперименту с искусственным интеллектом, проведенному в поддержку сезона BBC Beyond Fake News.

Наш эксперимент был вдохновлен этим вирусным клипом« Фальшивый Обама », снятым в Вашингтонском университете. Исследователи использовали ИИ, чтобы точно смоделировать, как президент Обама двигает ртом, когда говорит.

Этот метод синтеза изображений более известен как Deepfake. Термин Deepfake (набор глубинного обучения и подделки) может быть бесполезным и сбивающим с толку, поскольку лежащая в его основе технология имеет потенциал как для творческого, так и для злонамеренного использования. Наше внимание привлекает злонамеренное использование технологии, часто приводимые примеры варьируются от фейковых новостей до порно.



Так почему эта проблема важна для BBC? Реанимация видео может сбить с толку (и произвести впечатление) аудиторию, бросить вызов нашему представлению об истине и может посеять широкую гражданскую рознь. Для таких организаций, как BBC, крайне важно проникнуть в суть технологии, понимая, что нужно для создания убедительной реанимации видео, и исследуя, что можно сделать для обнаружения манипулируемых медиа.

В нашем эксперименте мы хотели раздвинуть технологические границы творчества, исследуя, может ли докладчик говорить на нескольких языках без проблем. Для этого мы попросили ведущего BBC World News Мэтью Амроливала записать короткий 20-секундный сценарий. Затем мы попросили трех разных докладчиков из служб BBC World Service на хинди, мандаринском и испанском языках записать один и тот же сценарий, но на их родных языках. Мы сознательно выбрали разные языки, чтобы проверить, насколько эффективна эта технология.

Для моделирования и синтеза мы сотрудничали с лондонским стартапом Synthesia в области искусственного интеллекта. Перед записью его 20-секундной пьесы мы попросили Мэтью прочитать заранее подготовленный сценарий, который бы выявлял все его движения лица. Это использовалось в качестве обучающих данных для алгоритмов глубокого обучения и компьютерного зрения. Генеративная сеть (это сеть, используемая для создания новых изображений человека) была затем обучена создавать фотореалистичные изображения лица Мэтью, которые лягут в основу его нового цифрового лица.

Наконец, чтобы оживить цифровое лицо, выражение лица и звуковая дорожка от наших коллег из Мировой службы переносятся на новое цифровое лицо - процесс, называемый цифровым кукловодством.

Вот и все - посмотрите видео ниже и убедитесь, насколько убедительно наше реанимированное видео:

Итак, что я пришел к выводу о нашем эксперименте? Испанский Мэтью мне кажется убедительным. Однако есть ли ощущение, что что-то не так при просмотре хинди и мандаринского языка Мэтью? Разве реанимация не такая изощренная, или мой мозг настолько не привык видеть, как он говорит по-мандарински, что приостановка недоверия нарушена? Или перевод неевропейских языков технически сложнее?

Но подумайте: теперь у нас есть гибкая цифровая копия лица Мэтью. Он мог бы записать новое видео (возможно, у себя на кухне), а мы оживить эти слова на любой другой записи Мэтью - в студии или в репортажах о местоположении. Последствия для доверенного вещателя, такого как BBC, серьезны.

Технологии достигли того уровня, когда можно дешево и быстро манипулировать видео и затруднить отличия от оригинала. Нам потребуются инструменты, которые смогут проверить подлинность видео и доказать это аудитории.

Но какой механизм вселит доверие в нашу аудиторию? Мы видим, что научные круги и технологические компании работают над проблемой аутентичности, но есть еще кое-что, что нужно сделать. На данный момент аудитория должна быть осведомлена о возможностях этой технологии. Видеть не всегда означает верить.

Вы можете увидеть реакцию Мэтью Амроливала на технологию в программе BBC News Click.