Синтез речи, также известный как TTS (Text to Speech), представляет собой технологию, которая искусственно генерирует человеческую речь и преобразует произвольную текстовую информацию в стандартную и плавную речь, читаемую вслух в режиме реального времени. Это неотъемлемая часть взаимодействия человека и машины. Технология распознавания речи позволяет компьютерам научиться «слушать», а технология синтеза речи позволяет компьютеру «говорить» как человек.
От навигации по карте, голосового помощника, чтения новостей до интеллектуального обслуживания клиентов, колл-центров и публичных трансляций приложение TTS повсюду в нашей жизни.
Помимо преобразования текста в речь, область исследований технологии синтеза речи также включает: синтез пения, синтез шепота, синтез диалектов, синтез звуков животных и т. Д. В настоящее время технология синтеза речи успешно применяется во многих областях.
В отличие от традиционного синтеза трансляций TTS, персонализированные приложения TTS становятся все более популярными. Основываясь на обширном опыте аннотирования речевых и текстовых данных, Datatang предоставляет высококачественные решения для синтеза речи с несколькими сценариями и категориями.
100 человек — Корпус синтеза речи среднего тона китайского языка, общий
Корпус записан носителями китайского языка. Он охватывает новости, диалоги, аудиокниги, поэзию, рекламу, выпуск новостей, развлечения; и фонемы и тона сбалансированы. Точность слов не менее 99,9%, точность фонем не менее 99%, просодическая точность не менее 98%.
19,46 часов — Синтез речи в американском английском, женский корпус
Корпус записан носителями американского английского языка с аутентичным акцентом и приятным звучанием. Фонемный охват сбалансирован. Точность слов не менее 99%, точность фонем не менее 98%, просодическая точность не менее 98%.
10 часов — Синтез китайского мандарина, женский корпус, служба поддержки
Корпус записан носителями китайского языка живым и дружелюбным голосом. Фонемный охват сбалансирован. Точность слов не менее 99,8 %, фонематическая точность записи не менее 98 %, точность границы слога не менее 98 %.
6,78 часов — корпус синтеза речи китайского мандарина — дети, имитирующие женский пол
Корпус записан носителями китайского языка, с аутентичным акцентом и сладким звуком. Фонемный охват сбалансирован. Точность слов не менее 99%.
С быстрым развитием технологии синтеза речи речь, генерируемая TTS, будет становиться все более и более естественной и яркой. Мы твердо верим, что развитие технологий продолжит преодолевать обычные препятствия и принесет нам больше удобства в нашей повседневной жизни.
Конец
Если вам нужны услуги передачи данных, свяжитесь с нами: info@datatang.com