Где я могу получить словарь английского языка со структурированными данными?

Я хочу скачать английский словарь -- а не просто список слов -- в структурированном формате, таком как TXT, XML или SQL.

В частности, мне нужно фонетическое произношение и части речи (определение не требуется).

Удивительно, но я нигде не могу найти это в Интернете. Викисловарь доступен для скачивания, но это только сами статьи MediaWiki. Сканирование всех статей и извлечение фонетики и частей речи было бы огромным упражнением.

Это где-нибудь доступно? Я не против заплатить.

Редактировать: несколько человек спросили, что я хотел бы сделать. Моя насущная потребность - это просто любопытство, например "какие самые распространенные двусложные глаголы?". В конечном итоге я надеюсь, что появится инструмент, который поможет вам находить доступные доменные имена, и делает это путем сопоставления правильных частей речи с бонусными баллами за фонетические совпадения.

Примечание. Опубликовано на английском языке. Язык и использование.

open-source resources phonetics

Portman 25.09.2010 источник

comment

Пожалуйста, проверьте файл Excel, представленный здесь: freedownloadscenter.com/Themes/School_Themes/ - Ramon Araujo 26.09.2010

comment

Приятно отметить, что если вы решите ползать, это не должно быть слишком сложно. У них есть классы CSS, установленные на произношение: <span class="IPA">/stʌf/</span> - Earlz 27.09.2010

comment

Это подается как phabricator.wikimedia.org/T38881. - Nemo 06.04.2015

Ответы (5)

arrow_upward
17
arrow_downward

Перейдите по адресу http://www.speech.cs.cmu.edu/cgi-bin/cmudict, и вы найдете страницу загрузки словаря произношения по адресу https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/

На данный момент последней версией является cmudict.0.7a.

Это то, что я сейчас использую для реализации счетчика слогов для http://www.haikuvillage.com. Он написан на Ruby, и я буду рад открыть его для вас, если это поможет.

matthuhiggins 30.09.2010

comment

Прохладно! Это очень полезно. Теперь мне нужны части речи... - Portman; 30.09.2010

comment

haikuvillage.com — это прекрасно! - Gourneau; 04.01.2011

comment

Это довольно старый вопрос, и у меня есть короткие сроки, но мне был бы интересен источник или объяснение того, как вы конвертируете телефоны ARPAbet в слоги, если вы все еще готовы поделиться им. - TheXenocide; 21.04.2017

arrow_upward
8
arrow_downward

Части речевого словаря в открытом доступе в строго структурированном формате: http://icon.shef.ac.uk/Moby/mpos.html

Каждая строка представляет собой запись, разделенную символом ×, со значением слова слева и значением части речи (глагол и т. д.) справа. Простой текстовый файл.

Community 07.08.2013

comment

ссылка не работает. - Farhan Farooqui; 28.06.2019

arrow_upward
6
arrow_downward

Wordnet — один из лучших словарей, которые я знаю. Возможно, вы найдете там что-нибудь: http://wordnet.princeton.edu/wordnet/related-projects/

chris 29.09.2010

comment

Это выглядит многообещающе. Я бы хотел, чтобы данные не были в пользовательском формате, но они выглядят извлекаемыми. - Portman; 30.09.2010

comment

Не похоже, что он содержит информацию о произношении, такую как IPA, или информацию о слогах для слова. Хотя я могу ошибаться. - pilcrowpipe; 23.01.2017

arrow_upward
2
arrow_downward

Портман, когда я использовал инструмент SpellChecker от DevExpress, я знал, что существует словари OpenOffice Я почти уверен, что они имеют четко определенную структуру данных. Я рекомендую вам использовать это в сочетании с любым бесплатным / платным инструментом преобразования текста в речь.

Надеюсь, это поможет,

Ramon Araujo 25.09.2010

comment

он ищет произношения и части речи, а не просто список слов (что предоставляют DevExpress и OpenOffice). - Beep beep; 25.09.2010

comment

@Jess - DevExpress использует список слов OpenOffice, но также имеет проверку орфографии. Я порекомендовал ему использовать стандартные файлы .dic и .aff для поиска слов, а затем инструмент, гарантирующий произношение. - Ramon Araujo; 25.09.2010

comment

файлы OpenOffice на самом деле являются подмножеством Aspell. Они включают только орфографию. Без частей речи и без произношения. - Portman; 25.09.2010

comment

@Portman, - Полностью согласен. Мое предложение заключалось в том, чтобы использовать их в качестве списка слов, которые должны быть произнесены любым бесплатным инструментом преобразования текста в речь. В инете их полно ;) - Ramon Araujo; 25.09.2010

comment

Я думаю, что ему нужно НАСТОЯЩЕЕ произношение, которое он может разобрать. Он не собирается слушать произношение движка TTS, а затем записывать его (а движки TTS обычно не очень хороши, если не считать 10 000 самых распространенных слов). - Beep beep; 27.09.2010

arrow_upward
1
arrow_downward

Это не прямой ответ на ваш вопрос, но алгоритм Double Metaphone очень хорошо находит совпадения слов или фраз для серверов приложений поисковых систем (таких как Solr и другие).

Я не могу сказать, как вы собираетесь использовать это, поэтому я не могу сказать, полезно ли мое предложение или нет. Если это близко к вашему предполагаемому использованию, на странице Википедии о Double Metaphone есть список примерно дюжины его реализаций, которые, возможно, стоит изучить.

http://en.wikipedia.org/wiki/Двойной_метафон

Chris Adragna 27.09.2010

Где я могу получить словарь английского языка со структурированными данными?

Ответы (5)

Вопросы по теме