Я хочу использовать маркеры SSML через Google Cloud API преобразования текста в речь для запроса синхронизации этих маркеров в аудиопотоке. Эти временные метки необходимы для предоставления подсказок для эффектов, выделения слов / разделов и обратной связи с пользователем.
Я нашел этот вопрос, который актуален, хотя вопрос относится к метки времени для каждого слова, а не для тега SSML <mark>
.
Следующий запрос API возвращает ОК, но показывает отсутствие запрошенных данных маркера. Это использует Cloud Text-to-Speech API v1
.
{
"voice": {
"languageCode": "en-US"
},
"input": {
"ssml": "<speak>First, <mark name=\"a\"/> second, <mark name=\"b\"/> third.</speak>"
},
"audioConfig": {
"audioEncoding": "mp3"
}
}
Ответ:
{
"audioContent":"//NExAAAAANIAAAAABcFAThYGJqMWA..."
}
Что обеспечивает только синтезированный звук без какой-либо контекстной информации.
Есть ли запрос API, который я не замечаю, который может предоставить информацию об этих маркерах, например, в случае с IBM Watson и Amazon Polly?