Я работаю над личным исследовательским проектом.
Моя цель состоит в том, чтобы иметь возможность распознавать звук и определять, принадлежит ли он IPA или нет, сравнивая его форму волны с формой волны в моей базе данных. У меня есть некоторые навыки работы с Mathematica, SciPy и PyBrain.
На первом этапе я использую только фонетический алфавит английского (США). У меня есть простой тестовый банк звуковых файлов английского фонетического алфавита, который я нашел в Интернете. Хитрость вот в чем:
Я хочу разделить звуковой файл на формы волны, соответствующие разным слогам — для этого потребуется алгоритм обучения. Таким образом, фраза «Я люблю яблоки» будет разбита на слоговые волны, из которых и будет состоять предложение.
Затем каждая форма волны сравнивается с волновыми формами английского PA. Я не уверен, как сделать эту часть. Я думал об использовании Praat для обнаружения форм сигналов, захвата изображения формы волны и сравнения его с изображением, хранящимся в базе данных, с анализом изображения (что довольно забавно).
Ущерб здесь в том, что я не знаю, как заставить Praat автоматически генерировать файл формы волны, а затем разрезать его между слогами на фрагменты формы волны. По логике, я бы просто подготовил тестовые примеры для алгоритма обучения и научил комп это делать.
Вместо того, чтобы нуждаться в изображении формы волны - могу ли я сделать это с помощью быстрого преобразования Фурье и сравнить два fft - с погрешностью x%, считайте это y слогом?