Ищу советы для личного проекта.
Я пытаюсь создать программу для создания настраиваемых голосовых команд. Цель состоит в том, чтобы позволить пользователю / мне записывать некоторые аудиоданные (2/3 секунды) для определения команд / макросов. Затем, когда пользователь будет говорить (записывать те же аудиоданные), команда / макрос будет выполняться. Программное обеспечение должно уметь обнаруживать команду менее чем за 1 секунду времени обработки на недорогом компьютере (например, RaspberryPi).
Я уже искал двумя способами: - Распознавание речи (CMU-Sphinx, Julius, simon): есть хорошие решения с открытым исходным кодом, но им часто требуются большие файлы базы данных, а распознавание речи - это не совсем то, что я пытаюсь сделать. Распознавание речи может потреблять слишком много энергии для небольшой функции. - Отпечаток аудио (Chromaprint -> http://acoustid.org/chromaprint): похоже, почти то, что я ищу. Принцип состоит в том, чтобы создать отпечаток пальца из необработанных аудиоданных, а затем сравнить отпечатки пальцев, чтобы определить, могут ли они быть идентичными. Однако этот вид программного обеспечения / библиотеки, похоже, предназначен для идентификации песен (как известные программы на смартфонах): я пытаюсь настроить хороший «компаратор», но я думаю, что у меня плохой путь.
Знаете ли вы, что какое-то специальное программное обеспечение или фрагмент кода делают что-то подобное?
Любое предложение будет оценено.