Корпус слов / фонем для Elman SRN (английский)

Я пишу простую рекуррентную сеть Элмана. Я хочу дать ему последовательности слов, где каждое слово представляет собой последовательность фонем, и мне нужно много обучающих и тестовых данных.

Итак, что мне нужно, так это корпус английских слов вместе с фонемами, из которых они состоят, написанный как-то вроде ARPAbet или SAMPA. Британский английский был бы хорош, но не обязателен, пока я знаю, с чем имею дело. Какие-либо предложения?

В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте этого.

Примечание. Мне известен Словарь произношения CMU, но он утверждает это основано только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия, и если да, то в чем они заключаются? (Если их нет, я мог бы просто использовать это...)

РЕДАКТИРОВАТЬ: CMUPD 0.7a список символов - гласные могут иметь лексическое ударение, и есть варианты (стандартных символов ARPABET), указывающие на это.

nlp neural-network phoneme

Iskar Jarak 07.09.2011 источник

comment

различия между CMUPD ARPABet и чем? обычный арпабет? - ealdent 07.09.2011

comment

Да, CMUPD ARPAbet и обычный ARPAbet. - Iskar Jarak 08.09.2011

Ответы (1)

arrow_upward
3
arrow_downward

CMUdict должен быть в порядке. «Набор символов Arpabet» означает просто Arpabet. Если есть какие-то незначительные отличия, их следует пояснить в документации CMUdict.

Если вам нужны данные, более близкие к реальной жизни, чем объединение словарных произношений отдельных слов, ищите фонетически транскрибированные корпуса, например, TIMIT.

aab 08.09.2011

comment

Моя главная проблема не в том, что часть набора символов этой фразы, а в том, что она основана на части. Глядя на их список символов, объединенный с описанием на странице, на которую я ссылался в своем вопросе, единственная разница, по-видимому, заключается в том, что они добавили варианты, указывающие на лексическое ударение. Кроме того, спасибо за упоминание фонетически транскрибированных корпусов — это хорошее направление для меня, когда я хорошо разберусь с основами работы отдельных слов. - Iskar Jarak; 10.09.2011

Корпус слов / фонем для Elman SRN (английский)

Ответы (1)

Вопросы по теме