CMU Sphinx для распознавания голоса / динамика

Я ищу способ сопоставить известный набор данных, скажем, список файлов MP3 или WAV, каждый из которых является образцом чьей-то речи. На данный момент я знаю, что файл ABC говорит о человеке X.

Затем я хотел бы взять еще один образец и выполнить сопоставление голоса, чтобы показать, от кого этот голос, скорее всего, с учетом известного на тот момент набора данных.

Кроме того, меня не обязательно заботит, что сказал человек, если я могу найти совпадение, то есть мне не нужна расшифровка или что-то еще.

Я знаю, что CMU Sphinx не распознает голоса и в основном используется для преобразования голоса в текст, но я видел и другие системы, например: LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization) или проект VoiceID (https://code.google.com/p/voiceid/), который использует CMU в качестве основы для этого типа работы.

Если я использую CMU, как я могу выполнить голосовое сопоставление?

Кроме того, если CMU Sphinx - не лучший фреймворк, есть ли альтернатива с открытым исходным кодом?

Dominic 10.01.2013 источник

comment

Любые последующие действия? Что вы наделали? У вас получилось? - Dariusz 05.03.2013

Ответы (1)

arrow_upward
2
arrow_downward

Это предмет, который по сложности был бы адекватен кандидатской диссертации. Хороших и надежных систем на данный момент нет.

Задача, которую вы ставите перед собой, очень сложная. Как вы должны подойти к этому, зависит от вашей ситуации.

у вас ограниченное количество людей? Как много?
сколько данных у вас есть по каждому человеку?

Если у вас очень мало людей, которых можно узнать, вы можете попробовать что-нибудь простое, например получить форманты этих людей и сравнивая их с образцом.

В противном случае вам придется связаться с некоторыми учеными, которые работают над предметом, или жюри выработает собственное решение. В любом случае, как я уже сказал, это сложная проблема.

Dariusz 11.02.2013

comment

Мне любопытно ваше заявление о том, что не бывает хороших и надежных систем. в этом документе упоминаются четыре структуры диаризации и инструмент LIUM (с 2009 г.) упомянутый OP кажется довольно хорошо используемым, например сообществом сфинксов. Есть ли у этих существующих подходов особые ограничения? - j b; 31.05.2014

comment

Я должен был написать, что ничего не знаю. Тем не менее, вы видели эти результаты? Они не так уж хороши. Использование голоса в качестве биометрической характеристики по-прежнему очень ненадежно. - Dariusz; 01.06.2014

CMU Sphinx для распознавания голоса / динамика

Ответы (1)

Вопросы по теме