Задача машинного обучения: выучить английское произношение

Допустим, вы хотите получить набор фонетических данных CMU, который выглядит следующим образом: :

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(Слово слева, справа ряд фонем, ключ здесь)

И вы хотите использовать его в качестве обучающих данных для системы машинного обучения, которая будет брать новые слова и угадывать, как они будут произноситься на английском языке.

Это не так очевидно для меня, по крайней мере, потому, что не существует фиксированного размера токенов букв, которые можно было бы сопоставить с фонемой. У меня есть ощущение, что что-то сделать с цепью Маркова может быть правильным путем.

Как бы вы это сделали?


person ʞɔıu    schedule 23.03.2009    source источник
comment
Следует иметь в виду, что и CMU, и данные moby относятся к американскому произношению и не содержат очень хорошего набора фонем для британского или других вариантов английского языка. На самом деле даже данные CMU и moby имеют разные наборы фонем. Произношение моби находится здесь: icon.shef.ac.uk/Moby/mpron.html< /а>   -  person hippietrail    schedule 09.05.2011


Ответы (2)


Эта проблема называется преобразованием графемы в фонему и является подзадачей обработки естественного языка. Google открывает несколько документов.

person Frank    schedule 05.04.2009

Не совсем моя область, но, возможно, построить нейронную сеть с несколькими слоями — более ранние слои, чтобы угадывать разбиение слов на последовательные слоги, более поздние слои, чтобы угадывать произношение указанных слогов.

Настройка нейронной сети для обучения ANFIS довольно проста для числовых данных, для буквальных/фонетических данных задача, несомненно, на несколько порядков сложнее.

person Jukka Dahlbom    schedule 23.03.2009
comment
у вас действительно может быть NN с переменным количеством выходных узлов? - person ʞɔıu; 24.03.2009
comment
Я так думаю - быстрый поиск в Google показывает, что легче обучать сети по отдельности, а затем объединять для достижения нескольких результатов. Эта проблема далеко не тривиальна, и я не претендую на то, что действительно могу ее решить. - person Jukka Dahlbom; 24.03.2009
comment
Вам действительно нужно переменное количество выходных узлов? Если количество фонем не является непомерно большим, просто имейте как можно больше выходных узлов фонем. - person bubaker; 20.05.2009