Где я могу получить словарь английского языка со структурированными данными?

Я хочу скачать английский словарь -- а не просто список слов -- в структурированном формате, таком как TXT, XML или SQL.

В частности, мне нужно фонетическое произношение и части речи (определение не требуется).

Удивительно, но я нигде не могу найти это в Интернете. Викисловарь доступен для скачивания, но это только сами статьи MediaWiki. Сканирование всех статей и извлечение фонетики и частей речи было бы огромным упражнением.

Это где-нибудь доступно? Я не против заплатить.

Редактировать: несколько человек спросили, что я хотел бы сделать. Моя насущная потребность - это просто любопытство, например "какие самые распространенные двусложные глаголы?". В конечном итоге я надеюсь, что появится инструмент, который поможет вам находить доступные доменные имена, и делает это путем сопоставления правильных частей речи с бонусными баллами за фонетические совпадения.

Примечание. Опубликовано на английском языке. Язык и использование.


person Portman    schedule 25.09.2010    source источник
comment
Пожалуйста, проверьте файл Excel, представленный здесь: freedownloadscenter.com/Themes/School_Themes/   -  person Ramon Araujo    schedule 26.09.2010
comment
Приятно отметить, что если вы решите ползать, это не должно быть слишком сложно. У них есть классы CSS, установленные на произношение: <span class="IPA">/stʌf/</span>   -  person Earlz    schedule 27.09.2010
comment
Это подается как phabricator.wikimedia.org/T38881.   -  person Nemo    schedule 06.04.2015


Ответы (5)


Перейдите по адресу http://www.speech.cs.cmu.edu/cgi-bin/cmudict, и вы найдете страницу загрузки словаря произношения по адресу https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/

На данный момент последней версией является cmudict.0.7a.

Это то, что я сейчас использую для реализации счетчика слогов для http://www.haikuvillage.com. Он написан на Ruby, и я буду рад открыть его для вас, если это поможет.

person matthuhiggins    schedule 30.09.2010
comment
Прохладно! Это очень полезно. Теперь мне нужны части речи... - person Portman; 30.09.2010
comment
haikuvillage.com — это прекрасно! - person Gourneau; 04.01.2011
comment
Это довольно старый вопрос, и у меня есть короткие сроки, но мне был бы интересен источник или объяснение того, как вы конвертируете телефоны ARPAbet в слоги, если вы все еще готовы поделиться им. - person TheXenocide; 21.04.2017

Части речевого словаря в открытом доступе в строго структурированном формате: http://icon.shef.ac.uk/Moby/mpos.html

Каждая строка представляет собой запись, разделенную символом ×, со значением слова слева и значением части речи (глагол и т. д.) справа. Простой текстовый файл.

person Community    schedule 07.08.2013
comment
ссылка не работает. - person Farhan Farooqui; 28.06.2019

Wordnet — один из лучших словарей, которые я знаю. Возможно, вы найдете там что-нибудь: http://wordnet.princeton.edu/wordnet/related-projects/

person chris    schedule 29.09.2010
comment
Это выглядит многообещающе. Я бы хотел, чтобы данные не были в пользовательском формате, но они выглядят извлекаемыми. - person Portman; 30.09.2010
comment
Не похоже, что он содержит информацию о произношении, такую ​​как IPA, или информацию о слогах для слова. Хотя я могу ошибаться. - person pilcrowpipe; 23.01.2017

Портман, когда я использовал инструмент SpellChecker от DevExpress, я знал, что существует словари OpenOffice Я почти уверен, что они имеют четко определенную структуру данных. Я рекомендую вам использовать это в сочетании с любым бесплатным / платным инструментом преобразования текста в речь.

Надеюсь, это поможет,

person Ramon Araujo    schedule 25.09.2010
comment
он ищет произношения и части речи, а не просто список слов (что предоставляют DevExpress и OpenOffice). - person Beep beep; 25.09.2010
comment
@Jess - DevExpress использует список слов OpenOffice, но также имеет проверку орфографии. Я порекомендовал ему использовать стандартные файлы .dic и .aff для поиска слов, а затем инструмент, гарантирующий произношение. - person Ramon Araujo; 25.09.2010
comment
файлы OpenOffice на самом деле являются подмножеством Aspell. Они включают только орфографию. Без частей речи и без произношения. - person Portman; 25.09.2010
comment
@Portman, - Полностью согласен. Мое предложение заключалось в том, чтобы использовать их в качестве списка слов, которые должны быть произнесены любым бесплатным инструментом преобразования текста в речь. В инете их полно ;) - person Ramon Araujo; 25.09.2010
comment
Я думаю, что ему нужно НАСТОЯЩЕЕ произношение, которое он может разобрать. Он не собирается слушать произношение движка TTS, а затем записывать его (а движки TTS обычно не очень хороши, если не считать 10 000 самых распространенных слов). - person Beep beep; 27.09.2010

Это не прямой ответ на ваш вопрос, но алгоритм Double Metaphone очень хорошо находит совпадения слов или фраз для серверов приложений поисковых систем (таких как Solr и другие).

Я не могу сказать, как вы собираетесь использовать это, поэтому я не могу сказать, полезно ли мое предложение или нет. Если это близко к вашему предполагаемому использованию, на странице Википедии о Double Metaphone есть список примерно дюжины его реализаций, которые, возможно, стоит изучить.

http://en.wikipedia.org/wiki/Двойной_метафон

person Chris Adragna    schedule 27.09.2010