Что, если я скажу вам, что существует искусственный интеллект, способный клонировать ваш голос, чтобы сказать что угодно? Вы могли бы подумать, что такому ИИ потребуется много данных, например, несколько часов записанной речи. Документ, на котором мы сегодня сосредоточимся, показывает, что он работает с 5-секундным предложением в качестве входных данных. Довольно умопомрачительно!

Вот бумага, использованная для этой статьи: https://arxiv.org/abs/1806.04558

Что он может сделать

https://google.github.io/tacotron/publications/speaker_adaptation/

Как это работает?

Ну, это требует 3 компонента:

  • Кодер динамика

Это нейронная сеть, обученная на тысячах и тысячах говорящих, чтобы сжать все полученные ею данные в представление: она пытается изучить суть человеческой речи со многими говорящими; пытаясь различить каждую деталь и хитросплетение человеческой речи. К счастью, это нужно сделать только один раз.

  • Синтезатор текста

Это компонент, который принимает текст в качестве входных данных и выводит спектрограмму Мела, которая является кратким представлением чьего-то голоса и интонации. Этот модуль реализован с использованием техники DeepMind Tacotron 2 в качестве основы.

  • вокодер

Этот компонент принимает спектрограммы и выводит форму волны, звук, если хотите. Он реализован с использованием технологии DeepMind WaveNet.

Насколько это хорошо?

Мы хотим что-то похожее на исходный голос, но говорящее совершенно другое.

Во-первых, важно, как мы сочетаем эти три компонента вместе. Входные данные также важны. Если мы обучаем модели с одним набором данных и тестируем их с другим, «Естественность» и «Сходство» различаются.

Модели были обучены североамериканскому акценту и борются с другими. Существует также часть проверки динамика, чтобы модель могла учиться.

Справедливости ради следует отметить, что решение способно узнать суть голоса говорящего в США всего за 5 секунд речи и сказать что-либо похожим голосом. Это очень хорошо! Обязательно ознакомьтесь с образцами, чтобы убедиться в этом самостоятельно.