Как использовать CMU Sphinx для принудительного распознавания фонем?

Я работаю над простым TTS-движком. Было бы хорошо иметь автоматическую систему сегментации дифонов, которая берет звук записывающего устройства и индекс фонемы (для одиночного высказывания) и устанавливает границы фонемы в звуке. Можно ли это сделать с CMU Sphinx? Какую версию sphinx мне следует использовать?


person Aleksei    schedule 10.04.2013    source источник


Ответы (1)


С помощью Sphinxtrain вы можете обучить зависимую от динамика модель, специфичную для вашего динамика. Подробнее об обучении см.

http://cmusphinx.sourceforge.net/wiki/tutorialam

Чтобы сегментировать базу данных, вы можете использовать двоичный файл sphinx3_align следующим образом:

  sphinx3_align \
    -hmm <model_dir> \
    -dict dictionary.dic \
    -ctl db.fileids \
    -cepdir <feats_folder> \
    -cepext .mfc \
    -insent db.transcription \
    -outsent db.out \
    -phlabdir phlabdir

Выравнивание на уровне телефона будет создано в папке с именем phlabdir.

person Nikolay Shmyrev    schedule 10.04.2013
comment
Нужно ли заранее вычислять кепстр? - person Olumide; 05.08.2013
comment
Да, сначала нужно создать файл mfc - person Nikolay Shmyrev; 05.08.2013