Я ищу способ сопоставить известный набор данных, скажем, список файлов MP3 или WAV, каждый из которых является образцом чьей-то речи. На данный момент я знаю, что файл ABC говорит о человеке X.
Затем я хотел бы взять еще один образец и выполнить сопоставление голоса, чтобы показать, от кого этот голос, скорее всего, с учетом известного на тот момент набора данных.
Кроме того, меня не обязательно заботит, что сказал человек, если я могу найти совпадение, то есть мне не нужна расшифровка или что-то еще.
Я знаю, что CMU Sphinx не распознает голоса и в основном используется для преобразования голоса в текст, но я видел и другие системы, например: LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization) или проект VoiceID (https://code.google.com/p/voiceid/), который использует CMU в качестве основы для этого типа работы.
Если я использую CMU, как я могу выполнить голосовое сопоставление?
Кроме того, если CMU Sphinx - не лучший фреймворк, есть ли альтернатива с открытым исходным кодом?