Как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http

Я хочу знать, как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http.

Я могу сделать это в локальных файловых системах, используя протокол file://, но не протокол http.

web-crawler filesystems nutch

Community 09.10.2009 источник

Ответы (1)

arrow_upward
0
arrow_downward

добавьте это свойство в файл nutch-site.xml, после чего вы будете сканировать файлы PDF

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>

Sunil 29.10.2009

Как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http

Ответы (1)

Вопросы по теме