Поддерживает ли Google WaveNet фонетический ввод (элементы фонемы SSML)?

Я работаю с продуктом, который использует фонетический ввод, чтобы заставить TTS генерировать правильное произношение имен. Я не вижу теги фонем в документации Google WaveNet TTS https://cloud.google.com/text-to-speech/docs/ssml, но, возможно, я его пропустил.

Если кто-нибудь из разработчиков Google слушает, могут ли они поделиться планами по добавлению фонетического ввода? Tnx


person murspieg    schedule 20.11.2019    source источник


Ответы (1)


Поскольку они основаны на нейронных сетях от начала до конца (текст -> сеть -> звук), они, вероятно, никогда не выполняли такой шаг фонемы, как (текст -> фонема -> сеть -> звук).

Это очень ожидаемо, так как этот выбор фонемы должен быть работой нейронной сети, исключающей ненужные фазы.

person Daniel Möller    schedule 20.07.2020
comment
Несомненно верно, но все системы TTS нуждаются в переопределении специализированных словарей (имен собственных, технических терминов). Независимо от качества правил, они всегда будут нужны. - person murspieg; 22.07.2020