CMU Sphinx для распознавания голоса / динамика

Я ищу способ сопоставить известный набор данных, скажем, список файлов MP3 или WAV, каждый из которых является образцом чьей-то речи. На данный момент я знаю, что файл ABC говорит о человеке X.

Затем я хотел бы взять еще один образец и выполнить сопоставление голоса, чтобы показать, от кого этот голос, скорее всего, с учетом известного на тот момент набора данных.

Кроме того, меня не обязательно заботит, что сказал человек, если я могу найти совпадение, то есть мне не нужна расшифровка или что-то еще.

Я знаю, что CMU Sphinx не распознает голоса и в основном используется для преобразования голоса в текст, но я видел и другие системы, например: LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization) или проект VoiceID (https://code.google.com/p/voiceid/), который использует CMU в качестве основы для этого типа работы.

Если я использую CMU, как я могу выполнить голосовое сопоставление?

Кроме того, если CMU Sphinx - не лучший фреймворк, есть ли альтернатива с открытым исходным кодом?


person Dominic    schedule 10.01.2013    source источник
comment
Любые последующие действия? Что вы наделали? У вас получилось?   -  person Dariusz    schedule 05.03.2013


Ответы (1)


Это предмет, который по сложности был бы адекватен кандидатской диссертации. Хороших и надежных систем на данный момент нет.

Задача, которую вы ставите перед собой, очень сложная. Как вы должны подойти к этому, зависит от вашей ситуации.

  • у вас ограниченное количество людей? Как много?
  • сколько данных у вас есть по каждому человеку?

Если у вас очень мало людей, которых можно узнать, вы можете попробовать что-нибудь простое, например получить форманты этих людей и сравнивая их с образцом.

В противном случае вам придется связаться с некоторыми учеными, которые работают над предметом, или жюри выработает собственное решение. В любом случае, как я уже сказал, это сложная проблема.

person Dariusz    schedule 11.02.2013
comment
Мне любопытно ваше заявление о том, что не бывает хороших и надежных систем. в этом документе упоминаются четыре структуры диаризации и инструмент LIUM (с 2009 г.) упомянутый OP кажется довольно хорошо используемым, например сообществом сфинксов. Есть ли у этих существующих подходов особые ограничения? - person j b; 31.05.2014
comment
Я должен был написать, что ничего не знаю. Тем не менее, вы видели эти результаты? Они не так уж хороши. Использование голоса в качестве биометрической характеристики по-прежнему очень ненадежно. - person Dariusz; 01.06.2014