Как автоматически индексировать данные с помощью solr и nutch?

Я хочу автоматически индексировать документ или веб-сайт, когда он загружается в apache solr. Как мы можем этого добиться? Я видел примеры использования задания CRON, которое нужно вызывать через php-скрипт, но они не совсем понятны в объяснении. Используя java api SolrJ, есть ли способ автоматически индексировать данные без необходимости делать это вручную?


person Saurabh Chaturvedi    schedule 28.05.2015    source источник


Ответы (2)


Вы можете написать планировщик и вызвать код solrJ, который выполняет индексацию/переиндексацию.

Для написания планировщика перейдите по ссылкам ниже

http://www.mkyong.com/java/how-to-run-a-task-periodically-in-java/

http://archive.oreilly.com/pub/a/java/archive/quartz.html

person Abhijit Bashetti    schedule 28.05.2015

Если вы используете Apache Nutch, вы должны использовать плагин Nutch solr-index. С помощью этого плагина вы можете индексировать веб-документы, как только Nutch просканирует их. Но главный вопрос будет заключаться в том, как запланировать периодический запуск Nutch.

Насколько я знаю, вы должны использовать планировщик для этой цели. Я знаю старый проект Nutch под названием Nutch-base, который использует Apache Quartz для планирования заданий Nutch. Вы можете найти исходный код Nutch-base по следующей ссылке:

https://github.com/mathieuravaux/nutchbase

Если вы рассматриваете этот проект, есть плагин под названием admin-scheduling. Хотя он реализован для старой версии Nutch, он может стать хорошей отправной точкой для разработки плагина планировщика для Nutch.

Стоит сказать, что если вы собираетесь периодически сканировать веб-сайт и получать новые ссылки, вы можете использовать этого руководства.

person Ali    schedule 28.05.2015