Извлечение терминов: Генерация тегов из текста

Как получить те же результаты, что и http://developer.yahoo.com/search/content/V1/termExtraction.html

Этот вопрос уже задавался не раз.

Пытаясь решить эту проблему с помощью существующих решений, я наткнулся на «Анализ текста», который Solr выполняет в документе перед индексацией, как описано в http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters, который также включает определение корней.

Таким образом, окончательный индекс будет состоять в основном из терминов, используемых для описания документа.

Есть ли решение, предоставляющее анализаторы, токенизаторы и фильтры токенов для прямого использования? Если solr - это выход, как лучше всего получить эти данные из индекса solr?

Sukumar 08.07.2009 источник

Ответы (2)

arrow_upward
4
arrow_downward

Solr — это способ создания пользовательской поисковой системы. Это не кажется правильным инструментом для работы. В статье Википедии об извлечении терминов в разделе "Внешние ссылки" перечислены несколько веб-приложений для извлечения терминов. . OpenNLP содержит список полезных инструментов. Его фрагмент может оказаться полезным.

Yuval F 09.07.2009

comment

да, термины Solr будут возвращать только уникальные токены (возможно, за вычетом некоторых общих слов и выполнения поиска и т. д.). На самом деле он не скажет вам, что важно в тексте. Что бы это ни стоило, вы можете высосать условия из solr через wiki.apache.org/solr/TermsComponent< /а> - mlathe; 28.01.2010

arrow_upward
1
arrow_downward

Просто попросите проанализированные термины, например.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

См. TermsComponent для получения дополнительной информации.

Tom Chiverton 29.02.2016

Извлечение терминов: Генерация тегов из текста

Ответы (2)

Вопросы по теме