Корпус слов / фонем для Elman SRN (английский)

Я пишу простую рекуррентную сеть Элмана. Я хочу дать ему последовательности слов, где каждое слово представляет собой последовательность фонем, и мне нужно много обучающих и тестовых данных.

Итак, что мне нужно, так это корпус английских слов вместе с фонемами, из которых они состоят, написанный как-то вроде ARPAbet или SAMPA. Британский английский был бы хорош, но не обязателен, пока я знаю, с чем имею дело. Какие-либо предложения?

В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте этого.

Примечание. Мне известен Словарь произношения CMU, но он утверждает это основано только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия, и если да, то в чем они заключаются? (Если их нет, я мог бы просто использовать это...)

РЕДАКТИРОВАТЬ: CMUPD 0.7a список символов - гласные могут иметь лексическое ударение, и есть варианты (стандартных символов ARPABET), указывающие на это.


person Iskar Jarak    schedule 07.09.2011    source источник
comment
различия между CMUPD ARPABet и чем? обычный арпабет?   -  person ealdent    schedule 07.09.2011
comment
Да, CMUPD ARPAbet и обычный ARPAbet.   -  person Iskar Jarak    schedule 08.09.2011


Ответы (1)


CMUdict должен быть в порядке. «Набор символов Arpabet» означает просто Arpabet. Если есть какие-то незначительные отличия, их следует пояснить в документации CMUdict.

Если вам нужны данные, более близкие к реальной жизни, чем объединение словарных произношений отдельных слов, ищите фонетически транскрибированные корпуса, например, TIMIT.

person aab    schedule 08.09.2011
comment
Моя главная проблема не в том, что часть набора символов этой фразы, а в том, что она основана на части. Глядя на их список символов, объединенный с описанием на странице, на которую я ссылался в своем вопросе, единственная разница, по-видимому, заключается в том, что они добавили варианты, указывающие на лексическое ударение. Кроме того, спасибо за упоминание фонетически транскрибированных корпусов — это хорошее направление для меня, когда я хорошо разберусь с основами работы отдельных слов. - person Iskar Jarak; 10.09.2011