Использование высококачественных данных TTS для оптимизации моделей ИИ

Синтез речи, также известный как TTS (Text to Speech), представляет собой технологию, которая искусственно генерирует человеческую речь и преобразует произвольную текстовую информацию в стандартную и плавную речь, читаемую вслух в режиме реального времени. Это неотъемлемая часть взаимодействия человека и машины. Технология распознавания речи позволяет компьютерам научиться «слушать», а технология синтеза речи позволяет компьютеру «говорить» как человек.

От навигации по карте, голосового помощника, чтения новостей до интеллектуального обслуживания клиентов, колл-центров и публичных трансляций приложение TTS повсюду в нашей жизни.

Помимо преобразования текста в речь, область исследований технологии синтеза речи также включает: синтез пения, синтез шепота, синтез диалектов, синтез звуков животных и т. Д. В настоящее время технология синтеза речи успешно применяется во многих областях.

В отличие от традиционного синтеза трансляций TTS, персонализированные приложения TTS становятся все более популярными. Основываясь на обширном опыте аннотирования речевых и текстовых данных, Datatang предоставляет высококачественные решения для синтеза речи с несколькими сценариями и категориями.

100 человек — Корпус синтеза речи среднего тона китайского языка, общий

Корпус записан носителями китайского языка. Он охватывает новости, диалоги, аудиокниги, поэзию, рекламу, выпуск новостей, развлечения; и фонемы и тона сбалансированы. Точность слов не менее 99,9%, точность фонем не менее 99%, просодическая точность не менее 98%.

19,46 часов — Синтез речи в американском английском, женский корпус

Корпус записан носителями американского английского языка с аутентичным акцентом и приятным звучанием. Фонемный охват сбалансирован.‍‍ Точность слов не менее 99%, точность фонем не менее 98%, просодическая точность не менее 98%.

10 часов — Синтез китайского мандарина, женский корпус, служба поддержки‍

Корпус записан носителями китайского языка живым и дружелюбным голосом. Фонемный охват сбалансирован. Точность слов не менее 99,8 %, фонематическая точность записи не менее 98 %, точность границы слога не менее 98 %.

6,78 часов — корпус синтеза речи китайского мандарина — дети, имитирующие женский пол

Корпус записан носителями китайского языка, с аутентичным акцентом и сладким звуком. Фонемный охват сбалансирован. Точность слов не менее 99%.

С быстрым развитием технологии синтеза речи речь, генерируемая TTS, будет становиться все более и более естественной и яркой. Мы твердо верим, что развитие технологий продолжит преодолевать обычные препятствия и принесет нам больше удобства в нашей повседневной жизни.

Конец

Если вам нужны услуги передачи данных, свяжитесь с нами: info@datatang.com

Использование высококачественных данных TTS для оптимизации моделей ИИ

Конец

Вопросы по теме