Несколько лет назад DeepMind поразил исследовательское сообщество, победив гроссмейстеров в древней игре го, а совсем недавно увидел, как его агенты-самоучки трэш-профи в видеоигре StarCraft II. Теперь британская компания искусственного интеллекта представила еще одно впечатляющее нововведение, на этот раз в области преобразования текста в речь (TTS).

Системы преобразования текста в речь (TTS) принимают текст на естественном языке в качестве входных данных и воспроизводят синтетическую человеческую речь в качестве выходных данных. Конвейеры преобразования текста в речь сложны и включают в себя несколько этапов обработки, таких как нормализация текста, согласованные лингвистические характеристики, синтез мел-спектрограммы, синтез необработанных звуковых сигналов и т. Д.

Хотя современные системы TTS, подобные тем, которые используются в цифровых помощниках, таких как Siri, могут похвастаться высококачественным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. На каждом этапе требуются дорогостоящие аннотации «наземной истины» для контроля выходных данных, и системы не могут обучаться непосредственно на основе символов или фонем в качестве входных данных для непрерывного синтеза речи, все более популярной в других областях машинного обучения.

Чтобы решить эти проблемы, исследователи DeepMind разработали EATS, генеративную модель, обученную противоборствующим образом на сквозной основе, которая обеспечивает производительность, сопоставимую с моделями SOTA, основанными на многоступенчатом обучении и дополнительном контроле.

EATS (End-to-end Adversarial TTS) ставит задачу сопоставить входную последовательность символов или фонем с необработанным звуком с частотой 24 кГц. Важнейшей реальной проблемой является то, что входной текст и выходные речевые сигналы обычно имеют очень разную длину и не выровнены. EATS справляется с этим с помощью двух субмодулей высокого уровня: выравнивателя, который прогнозирует длительность каждого входного токена и создает выровненное по звуку представление, и декодера, повышающего дискретизацию выходного сигнала выравнивателя до полной звуковой частоты.

Примечательные моменты модели EATS включают в себя:

  • Вся архитектура генератора дифференцируема и проходит сквозное обучение.
  • Это сверточная нейронная сеть с прямой связью, что делает ее подходящей для приложений, в которых важен быстрый групповой вывод.
  • Состязательный подход позволяет генератору учиться на относительно слабом контрольном сигнале, что значительно снижает стоимость аннотаций.
  • Он не полагается на авторегрессионную выборку или принуждение учителя, избегая таких проблем, как смещение экспозиции и снижение параллелизма во время вывода, что делает его эффективным как при обучении, так и при выводе.

Исследователи оценили EATS с помощью среднего мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи в исполнении профессиональных актеров озвучивания и их соответствующем тексте. Голосовой пул состоял из 69 носителей английского языка из Северной Америки.

По сравнению с предыдущими моделями, EATS требует значительно меньшего контроля, но по-прежнему обеспечивает MOS 4.083, приближаясь к уровню методов SOTA, таких как GAN-TTS и WaveNet, и значительно лучше, чем модели, такие как No RWDs, No MelSpecD и No Discriminators.

Статья Сквозное состязательное преобразование текста в речь находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен и Юань Юань

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.