Какие аудиоформаты поддерживаются службой речи Azure Cognitive Services (SST)?

Принимая во внимание, что «Речевая служба» Microsoft / Azure Cognitive Services в настоящее время проходит рационализацию, насколько я могу судить, глядя на

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-apis#speech-to-text

https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home

допустимы только .wav двоичные файлы, все остальное дает ответ:

{"Message":"Unsupported audio format"}

Есть ли другой способ узнать приемлемые аудиоформаты / кодировки / и т. Д., Или это все?

[Бонусные баллы за советы по предварительной обработке произвольных / .m4a аудиоформатов в python pydub так, чтобы они соответствовали планке - в настоящее время работает для .mp3, но не для .m4a].

Спасибо!


person jtlz2    schedule 31.07.2018    source источник


Ответы (1)


В настоящее время формат поддержки: одноканальный (моно) WAV / PCM с частотой дискретизации 16 кГц. В будущем будет добавлена ​​дополнительная поддержка форматов и кодеков.

person Zhou    schedule 13.08.2018