Я работаю над простым TTS-движком. Было бы хорошо иметь автоматическую систему сегментации дифонов, которая берет звук записывающего устройства и индекс фонемы (для одиночного высказывания) и устанавливает границы фонемы в звуке. Можно ли это сделать с CMU Sphinx? Какую версию sphinx мне следует использовать?
Как использовать CMU Sphinx для принудительного распознавания фонем?
Ответы (1)
С помощью Sphinxtrain вы можете обучить зависимую от динамика модель, специфичную для вашего динамика. Подробнее об обучении см.
http://cmusphinx.sourceforge.net/wiki/tutorialam
Чтобы сегментировать базу данных, вы можете использовать двоичный файл sphinx3_align следующим образом:
sphinx3_align \
-hmm <model_dir> \
-dict dictionary.dic \
-ctl db.fileids \
-cepdir <feats_folder> \
-cepext .mfc \
-insent db.transcription \
-outsent db.out \
-phlabdir phlabdir
Выравнивание на уровне телефона будет создано в папке с именем phlabdir.
person
Nikolay Shmyrev
schedule
10.04.2013
Нужно ли заранее вычислять кепстр?
- person Olumide; 05.08.2013
Да, сначала нужно создать файл mfc
- person Nikolay Shmyrev; 05.08.2013