DeepMind представляет «EATS» - состязательный, сквозной подход к TTS

Несколько лет назад DeepMind поразил исследовательское сообщество, победив гроссмейстеров в древней игре го, а совсем недавно увидел, как его агенты-самоучки трэш-профи в видеоигре StarCraft II. Теперь британская компания искусственного интеллекта представила еще одно впечатляющее нововведение, на этот раз в области преобразования текста в речь (TTS).

Системы преобразования текста в речь (TTS) принимают текст на естественном языке в качестве входных данных и воспроизводят синтетическую человеческую речь в качестве выходных данных. Конвейеры преобразования текста в речь сложны и включают в себя несколько этапов обработки, таких как нормализация текста, согласованные лингвистические характеристики, синтез мел-спектрограммы, синтез необработанных звуковых сигналов и т. Д.

Хотя современные системы TTS, подобные тем, которые используются в цифровых помощниках, таких как Siri, могут похвастаться высококачественным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. На каждом этапе требуются дорогостоящие аннотации «наземной истины» для контроля выходных данных, и системы не могут обучаться непосредственно на основе символов или фонем в качестве входных данных для непрерывного синтеза речи, все более популярной в других областях машинного обучения.

Чтобы решить эти проблемы, исследователи DeepMind разработали EATS, генеративную модель, обученную противоборствующим образом на сквозной основе, которая обеспечивает производительность, сопоставимую с моделями SOTA, основанными на многоступенчатом обучении и дополнительном контроле.

EATS (End-to-end Adversarial TTS) ставит задачу сопоставить входную последовательность символов или фонем с необработанным звуком с частотой 24 кГц. Важнейшей реальной проблемой является то, что входной текст и выходные речевые сигналы обычно имеют очень разную длину и не выровнены. EATS справляется с этим с помощью двух субмодулей высокого уровня: выравнивателя, который прогнозирует длительность каждого входного токена и создает выровненное по звуку представление, и декодера, повышающего дискретизацию выходного сигнала выравнивателя до полной звуковой частоты.

Примечательные моменты модели EATS включают в себя:

Вся архитектура генератора дифференцируема и проходит сквозное обучение.
Это сверточная нейронная сеть с прямой связью, что делает ее подходящей для приложений, в которых важен быстрый групповой вывод.
Состязательный подход позволяет генератору учиться на относительно слабом контрольном сигнале, что значительно снижает стоимость аннотаций.
Он не полагается на авторегрессионную выборку или принуждение учителя, избегая таких проблем, как смещение экспозиции и снижение параллелизма во время вывода, что делает его эффективным как при обучении, так и при выводе.

Исследователи оценили EATS с помощью среднего мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи в исполнении профессиональных актеров озвучивания и их соответствующем тексте. Голосовой пул состоял из 69 носителей английского языка из Северной Америки.

По сравнению с предыдущими моделями, EATS требует значительно меньшего контроля, но по-прежнему обеспечивает MOS 4.083, приближаясь к уровню методов SOTA, таких как GAN-TTS и WaveNet, и значительно лучше, чем модели, такие как No RWDs, No MelSpecD и No Discriminators.

Статья Сквозное состязательное преобразование текста в речь находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен и Юань Юань

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

DeepMind представляет «EATS» - состязательный, сквозной подход к TTS

Вопросы по теме