Извлечение терминов: Генерация тегов из текста

Как получить те же результаты, что и http://developer.yahoo.com/search/content/V1/termExtraction.html

Этот вопрос уже задавался не раз.

Пытаясь решить эту проблему с помощью существующих решений, я наткнулся на «Анализ текста», который Solr выполняет в документе перед индексацией, как описано в http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters, который также включает определение корней.

Таким образом, окончательный индекс будет состоять в основном из терминов, используемых для описания документа.

Есть ли решение, предоставляющее анализаторы, токенизаторы и фильтры токенов для прямого использования? Если solr - это выход, как лучше всего получить эти данные из индекса solr?


person Sukumar    schedule 08.07.2009    source источник


Ответы (2)


Solr — это способ создания пользовательской поисковой системы. Это не кажется правильным инструментом для работы. В статье Википедии об извлечении терминов в разделе "Внешние ссылки" перечислены несколько веб-приложений для извлечения терминов. . OpenNLP содержит список полезных инструментов. Его фрагмент может оказаться полезным.

person Yuval F    schedule 09.07.2009
comment
да, термины Solr будут возвращать только уникальные токены (возможно, за вычетом некоторых общих слов и выполнения поиска и т. д.). На самом деле он не скажет вам, что важно в тексте. Что бы это ни стоило, вы можете высосать условия из solr через wiki.apache.org/solr/TermsComponent< /а> - person mlathe; 28.01.2010

Просто попросите проанализированные термины, например.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

См. TermsComponent для получения дополнительной информации.

person Tom Chiverton    schedule 29.02.2016