У меня есть два речевых аудиофайла. Каждый записан из телефонного разговора, и они различаются по продолжительности (первый файл длится 3 секунды, а второй — 5 секунд). Я хочу измерить сходство двух файлов. Обратите внимание, что меня не интересует текстовое содержимое в речевом сигнале (т.е. NO Speech to Text). Мне нужно просто измерить сходство и получить оценку или процент.
Я нашел несколько инструментов, которые выполняют анализ звуковых отпечатков пальцев, но я обнаружил, что почти все они нацелены на музыкальные аудиофайлы и плохо работают с речью.