В настоящее время я использую W3C Web Speech API для испанского и Мандарин. В целом распознавание нормальное, но есть много ошибок (особенно с отдельными словами), а иногда в транскрибированных испанских словах произвольно добавляются акценты, например, lo siento
==> lo síento
.
Я думаю о переходе на более надежный и точный API и обнаружил Google Speech API. Хотя Web Speech API бесплатный, я бы предпочел платить деньги за точность (меньшее количество ошибок). В общем, я не нуждаюсь в транскрибировании длинных аудиофайлов (предложения из 6-8 слов, обычно максимум, но чаще всего предложения из 1-4 слов) и намереваюсь выполнять эти вызовы из браузера.
Я не могу найти документацию по производительности этих двух API, поэтому любая помощь в принятии решения о переключении будет полезна.