Как получить те же результаты, что и http://developer.yahoo.com/search/content/V1/termExtraction.html
Этот вопрос уже задавался не раз.
Пытаясь решить эту проблему с помощью существующих решений, я наткнулся на «Анализ текста», который Solr выполняет в документе перед индексацией, как описано в http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters, который также включает определение корней.
Таким образом, окончательный индекс будет состоять в основном из терминов, используемых для описания документа.
Есть ли решение, предоставляющее анализаторы, токенизаторы и фильтры токенов для прямого использования? Если solr - это выход, как лучше всего получить эти данные из индекса solr?