Я пишу простую рекуррентную сеть Элмана. Я хочу дать ему последовательности слов, где каждое слово представляет собой последовательность фонем, и мне нужно много обучающих и тестовых данных.
Итак, что мне нужно, так это корпус английских слов вместе с фонемами, из которых они состоят, написанный как-то вроде ARPAbet или SAMPA. Британский английский был бы хорош, но не обязателен, пока я знаю, с чем имею дело. Какие-либо предложения?
В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте этого.
Примечание. Мне известен Словарь произношения CMU, но он утверждает это основано только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия, и если да, то в чем они заключаются? (Если их нет, я мог бы просто использовать это...)
РЕДАКТИРОВАТЬ: CMUPD 0.7a список символов - гласные могут иметь лексическое ударение, и есть варианты (стандартных символов ARPABET), указывающие на это.