Транскрипция разговора в Azure: идентификатор пользователя отображается как $ ref $

Я использую Microsoft Speech SDK (и их пример кода) для расшифровки беседы с несколькими участниками. Транскрипция работает нормально, но возвращает $ref$ вместо идентификатора пользователя для людей с предоставленными подписями и Unidentified для людей без подписей.

Я использую не Roobo, а звуковой файл, который я подготовил с помощью Audacity, который состоит из восьми каналов 16-битного звука PCM 16 кГц. Транскрипция работает, поэтому я предполагаю, что проблема не в звуковом файле. Похоже, что служба правильно распознает голоса, привязанные к файлам подписи (например, он переключается с $ ref $ на Unknown в правой части текста), но, похоже, не может получить доступ к имени говорящего (идентификатор пользователя в модели) .

К сожалению, я не могу найти в Интернете какой-либо код C # для ссылки, кроме предоставленного образца Microsoft (https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to-use-talk-transcription-service).

Я вижу, что здесь есть сообщение с аналогичным вопросом (но без ответов): Azure Speech To Text: Расшифровка разговора с идентификатором пользователя всегда возвращает $ ref $

Кто-нибудь пытался это сделать, и он работает?


person Andrew van Renen    schedule 22.08.2019    source источник


Ответы (1)


Похоже, звук не в правильном формате. Должен быть 16 бит, 16 кГц, 8 каналов (стерео левый = 1, стерео правый = 2, моно = 3, моно = 4, моно = 5, моно = 6, моно = 7, беззвучный моно = 8).

Здесь вы можете найти enrollment_audio_steve.wav, enrollment_audio_katie.wav и разговор katiesteve.wav. Это в правильном формате. Однако он не позволяет создавать подпись из enrollment_audio_katie.wav. Так что это работает со Стивом.

По-прежнему кажется, что это работает только с устройствами SpeechSDK. Но я смог воспроизвести собственное аудио на основе этого формата.

person stlik    schedule 06.12.2019