У меня есть сопоставление более 100 000 слов с их фонемами (CMUdict), как:
ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ]
Я хочу разбить буквы исходных слов на количество групп, равное количеству фонем, например.
ABANDONED => [ 'A', 'B', 'A', 'N', 'D', 'O', 'N', 'ED' ]
У меня нет сопоставления фонем с графемами, но кажется, что я должен быть в состоянии вычислить статистическую модель фонем с графемами, а затем использовать ее, чтобы решить, где разделить каждое слово. (Было бы неплохо, если бы модель можно было использовать и для преобразования новых слов в их вероятные фонемы.)
Как я могу это сделать? Я думал, что скрытая марковская модель звучит так, как будто она может быть применима, но кроме этой догадки я не знаю.