Я хочу знать, как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http.
Я могу сделать это в локальных файловых системах, используя протокол file://, но не протокол http.
Я хочу знать, как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http.
Я могу сделать это в локальных файловых системах, используя протокол file://, но не протокол http.
добавьте это свойство в файл nutch-site.xml, после чего вы будете сканировать файлы PDF
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>