Я использую Microsoft Speech SDK (и их пример кода) для расшифровки беседы с несколькими участниками. Транскрипция работает нормально, но возвращает $ref$
вместо идентификатора пользователя для людей с предоставленными подписями и Unidentified
для людей без подписей.
Я использую не Roobo, а звуковой файл, который я подготовил с помощью Audacity, который состоит из восьми каналов 16-битного звука PCM 16 кГц. Транскрипция работает, поэтому я предполагаю, что проблема не в звуковом файле. Похоже, что служба правильно распознает голоса, привязанные к файлам подписи (например, он переключается с $ ref $ на Unknown в правой части текста), но, похоже, не может получить доступ к имени говорящего (идентификатор пользователя в модели) .
К сожалению, я не могу найти в Интернете какой-либо код C # для ссылки, кроме предоставленного образца Microsoft (https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to-use-talk-transcription-service).
Я вижу, что здесь есть сообщение с аналогичным вопросом (но без ответов): Azure Speech To Text: Расшифровка разговора с идентификатором пользователя всегда возвращает $ ref $
Кто-нибудь пытался это сделать, и он работает?