В моем детстве одним из самых забавных взаимодействий с компьютером было заставить его читать сказку. Вы можете скопировать текст в окно и вскоре послушать, как бесцветный металлический голос пробирается через запятые и перестает плести рассказ со странным акцентом. По тем временам это было чудо.

В настоящее время цель TTS - технологии преобразования текста в речь - состоит не в том, чтобы просто заставить машины разговаривать, а в том, чтобы заставить их звучать как люди разного возраста и пола. В перспективе мы сможем слушать аудиокниги и новости с машинным голосом по телевизору или общаться с помощниками, не замечая разницы.

Как этого добиться и каковы основные конкуренты в этой сфере - читайте в нашем посте.

Измерения качества

Как правило, качество синтезаторов системы TTS оценивается с разных сторон, включая разборчивость, естественность и предпочтительность синтетической речи [4], а также факторы человеческого восприятия, такие как разборчивость [3].

Разборчивость: качество генерируемого звука или степень воспроизведения каждого слова в предложении .

Естественность: качество речи с точки зрения ее временной структуры, произношения и передачи эмоций.

Предпочтение: лучший выбор слушателей TTS; предпочтение и естественность зависят от системы TTS, качества сигнала и голоса, по отдельности и в сочетании.

Понятность: степень понимания полученных сообщений.

Сравнение подходов к конверсии TTS

Развитие компьютерных наук и искусственного интеллекта влияет на подходы к синтезу речи, которые развивались на протяжении многих лет в ответ на последние тенденции и новые возможности в сборе и обработке данных. В то время как в течение долгого времени двумя основными методами преобразования текста в речь были конкатенативный TTS и параметрический TTS, революция в области глубокого обучения добавила новый взгляд на проблему синтеза речи, сместив акцент с речевых функций, разработанных человеком, на полностью машинно-полученные параметры [1,2].

Конкатенативный TTS

Конкатенативный TTS основан на высококачественных записях аудиоклипов, которые объединяются вместе для формирования речи. На первом этапе голосовые актеры записываются, произнося ряд речевых единиц, от целых предложений до слогов, которые затем маркируются и сегментируются по языковым единицам, от телефонов до фраз и предложений, образующих огромную базу данных. Во время синтеза речи механизм преобразования текста в речь ищет в такой базе данных речевые единицы, которые соответствуют входному тексту, объединяет их вместе и создает аудиофайл.

Плюсы

- Высокое качество звука с точки зрения разборчивости;

- Возможность сохранения оригинального актерского голоса;

Минусы

- Такие системы требуют очень много времени, потому что они требуют огромных баз данных и жестко кодируют комбинацию для формирования этих слов;

- Результирующая речь может казаться менее естественной и бесчувственной, потому что практически невозможно получить аудиозаписи всех возможных слов, произнесенных во всех возможных комбинациях эмоций, просодии, стресса и т. Д.

Примеры:

Синтез певческого голоса - это тип синтеза речи, который наилучшим образом соответствует возможностям конкатенативного TTS. Имея возможность записать конкретного певца, такие системы способны сохранить наследие, восстанавливая записи звезд прошлых дней, как в Acapella Group, а также заставить любимого певца исполнить другую песню по своему вкусу, как в Вокалоиде.

Синтез форманта

Техника синтеза формант - это методика TTS, основанная на правилах. Он производит речевые сегменты путем генерации искусственных сигналов на основе набора определенных правил, имитирующих структуру формант и другие спектральные свойства естественной речи. Синтезированная речь производится с использованием аддитивного синтеза и акустической модели. Акустическая модель использует такие параметры, как голос, основная частота, уровни шума и т. Д., Которые менялись во времени. Системы на основе формант могут управлять всеми аспектами выходной речи, создавая широкий спектр эмоций и голоса разного тона с помощью некоторых техник просодического и интонационного моделирования.

Плюсы

- Высокая разборчивость синтезированной речи даже на высоких скоростях без акустических глюков;

- Менее зависимы от речевого корпуса для вывода речи;

- Хорошо подходит для встраиваемых систем, где память и мощность микропроцессора ограничены.

Минусы

- Низкая естественность: эта техника воспроизводит искусственную, звучащую как робот речь, которая отличается от естественной речи человека.

- Сложно разработать правила, определяющие время появления источника и динамические значения всех параметров фильтра даже для простых слов.

Примеры

Техника синтеза формант широко используется для имитации голосовых характеристик, которые принимают речь в качестве входных данных, и поиска соответствующих входных параметров, которые создают речь, имитируя целевую речь. Один из самых известных примеров - espeak-ng, многоязычная система синтеза речи с открытым исходным кодом, основанная на синтезаторе Klatt. Эта система включена в качестве синтезатора речи по умолчанию в программу чтения с экрана с открытым исходным кодом NVDA для Windows, Android, Ubuntu и других дистрибутивов Linux. Более того, его предшественник eSpeak использовался Google Translate для 27 языков в 2010 году.

Параметрический TTS

Чтобы устранить ограничения конкатенативной TTS, был разработан более статистический метод. Идея, лежащая в основе этого, заключается в том, что, если мы можем приблизиться к параметрам, из которых состоит речь, мы можем обучить модель генерировать все виды речи. Параметрический метод объединяет параметры, включая основную частоту, амплитудный спектр и т. Д., И обрабатывает их для генерации речи. На первом этапе текст обрабатывается для извлечения лингвистических характеристик, таких как фонемы или продолжительность. Второй шаг требует извлечения характеристик вокодера, таких как кепстра, спектрограмма, основная частота и т. Д., Которые представляют некоторые неотъемлемые характеристики человеческой речи и используются при обработке звука. Эти функции разрабатываются вручную и вместе с языковыми функциями вводятся в математическую модель, называемую вокодером. При генерации сигнала вокодер преобразует характеристики и оценивает параметры речи, такие как фаза, скорость речи, интонация и другие. Этот метод использует скрытые полумарковские модели - переходы между состояниями все еще существуют, и модель является марковской на этом уровне, но явная модель продолжительности в каждом состоянии не является марковской.

Плюсы:

- Повышена естественность звука. К сожалению, технология создания эмоциональных голосов еще не усовершенствована, но параметрические TTS способны на это. Помимо эмоциональных голосов, он имеет большой потенциал в таких областях, как адаптация говорящего и интерполяция говорящего;

- Гибкость: легче изменить высоту звука для эмоционального изменения или использовать адаптацию MLLR для изменения характеристик голоса;

- Более низкая стоимость разработки: для этого требуется всего 2–3 часа записи голосового актера, что требует меньшего количества записей, меньшей базы данных и меньшей обработки данных.

Минусы:

- Более низкое качество звука с точки зрения разборчивости: есть много артефактов, приводящих к приглушенной речи, с постоянно присутствующим жужжащим звуком, шумным звуком;

- Голос может звучать как робот. : в TTS, основанном на статистической модели, приглушенный звук делает голос стабильным, но неестественным и роботизированным.

Примеры:

Впервые представленный в 1990-х годах, параметрический движок TTS стал популярен примерно в 2007 году, при этом Festival Speech Synthesis System от Эдинбургского университета и Festvox Университета Карнеги-Меллона являются примерами таких движков, лежащих в основе систем синтеза речи, таких как FreeTTS.

Гибридные (глубокое обучение) подходы

Подход, основанный на DNN (Deep Neural Network), - это еще один вариант подходов к статистическому синтезу, который используется для преодоления неэффективности деревьев решений, используемых в HMM для моделирования сложных зависимостей контекста. Шагом вперед и, в конечном итоге, прорывом стало то, что машины могли разрабатывать функции без вмешательства человека. Функции, разработанные людьми, основаны на нашем понимании речи, но это не обязательно правильно. В методах DNN связь между входными текстами и их акустической реализацией моделируется DNN. Акустические особенности создаются с использованием сглаживания траектории генерации параметра максимального правдоподобия. Функции, полученные с помощью глубокого обучения, не читаются человеком, но они читаются компьютером и представляют данные, необходимые для модели.

Плюсы

- Огромное улучшение как с точки зрения разборчивости, так и естественности;

- Не требуют обширной предварительной обработки человеком и разработки функций

Минусы

- В последнее время методы синтеза речи Deep Learning все еще требуют исследований.

Примеры:

Это метод глубокого обучения, который сейчас доминирует в этой области, он лежит в основе практически всех успешных систем TTS, таких как WaveNet, Nuance TTS или SampleRNN.

Nuance TTS и Sample RNN - две системы, основанные на повторяющихся нейронных сетях. SampleRNN, например, использует иерархию рекуррентных слоев, которые имеют разные тактовые частоты для обработки звука. Множественные RNN образуют иерархию, где верхний уровень принимает большие порции входных данных, обрабатывает их и передает их на нижний уровень, который обрабатывает меньшие порции, и так далее через нижний уровень, который генерирует одну выборку. Эти методы дают гораздо менее внятные результаты, но работают быстро.

WaveNet, являющийся ядром Google Could Text-to-Speech, представляет собой полностью сверточную нейронную сеть, которая принимает оцифрованные необработанные звуковые сигналы в качестве входных данных, которые затем проходит через эти сверточные слои и выводит образец сигнала. Несмотря на то, что WaveNet близок к идеальному по разборчивости и естественности, он неприемлемо медленный (команда сообщила, что для генерации 1 секунды звука требуется около 4 минут).

Наконец, новая волна сквозного обучения привела к появлению модели Google Tacotron, которая учится синтезировать речь непосредственно из пар (текст, аудио). Он принимает символы текста в качестве входных данных, передает их через различные субмодули нейронной сети и генерирует спектрограмму звука.

Как мы видим, эволюция синтеза речи все больше полагается на машины как в определении необходимых характеристик, так и в их обработке без помощи правил, разработанных человеком. Такой подход улучшает общее качество производимого звука и значительно упрощает процесс сбора и предварительной обработки данных. Однако у каждого подхода есть своя ниша, и даже менее эффективные системы конканетирования могут стать оптимальным выбором в зависимости от потребностей и ресурсов бизнеса.

Дальнейшее чтение

Король, Саймон. «Руководство для начинающих по статистическому параметрическому синтезу речи». (2010).

Кулиговска К., Киселевич П. и Влодарц А. (2018) Системы синтеза речи: недостатки и ограничения, Международный журнал инженерии и технологий , [S.l.], т. 7, н. 2.28, п. 234–239.

Писони, Д. Б. и др., «Восприятие синтетической речи, порождаемой правилом», в Proceedings of the IEEE, 1985, pp. 1665–1676.

Стивенс, С. и др., «Экспериментальные онлайн-методы для оценки синтеза текста в речь (TTS): влияние пола голоса и качества сигнала на разборчивость, естественность и предпочтение», Computer Speech and Language, vol. 19. С. 129–146, 2005.