Допустим, вы хотите получить набор фонетических данных CMU, который выглядит следующим образом: :
ABERRATION AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z
ABERT AE1 B ER0 T
ABET AH0 B EH1 T
ABETTED AH0 B EH1 T IH0 D
ABETTING AH0 B EH1 T IH0 NG
ABEX EY1 B EH0 K S
ABEYANCE AH0 B EY1 AH0 N S
(Слово слева, справа ряд фонем, ключ здесь)
И вы хотите использовать его в качестве обучающих данных для системы машинного обучения, которая будет брать новые слова и угадывать, как они будут произноситься на английском языке.
Это не так очевидно для меня, по крайней мере, потому, что не существует фиксированного размера токенов букв, которые можно было бы сопоставить с фонемой. У меня есть ощущение, что что-то сделать с цепью Маркова может быть правильным путем.
Как бы вы это сделали?