Вопросы по теме 'nutch'

Использование краулера Nutch с Solr
Могу ли я интегрировать искатель Apache Nutch с сервером Solr Index? Изменить: Один из наших разработчиков предложил решение из этих сообщений Запуск Nutch и Solr Обновление для Running Nutch и Solr Ответ да
10632 просмотров
schedule 21.03.2023

Сравнительный анализ производительности для Apache Nutch
Я хочу знать, существуют ли какие-либо существующие тесты и информация о размерах для развертывания поисковой системы на основе apache nutch. Я хочу знать, скажем, 10 миллионов поисковых запросов в месяц, какой должен быть размер оборудования,...
1051 просмотров
schedule 06.11.2022

как сделать ИЛИ искать в nutch?
Скажем, искать результаты, поле которых «A» или «B»? кажется, по умолчанию используется И.
429 просмотров
schedule 26.04.2023

Nutch Многопоточность
Я пытаюсь настроить nutch для запуска многопоточного сканирования. Однако я столкнулся с проблемой. Я не могу запустить сканирование с несколькими потоками, я изменил nutch-site.xml, чтобы использовать 25 потоков, но все же вижу только 1...
2307 просмотров
schedule 09.04.2022

Как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http
Я хочу знать, как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http. Я могу сделать это в локальных файловых системах, используя протокол file://, но не протокол http.
1564 просмотров
schedule 21.11.2022

Заставить nutch расставлять приоритеты на часто обновляемых страницах?
Есть ли способ заставить Nutch увеличить сканирование часто обновляемых страниц? Например. индексные страницы и каналы. Также было бы полезно обновлять свежие страницы, которые содержат комментарии чаще, в первую дату после создания страницы....
305 просмотров
schedule 22.04.2023

Пустой список сканирования Nutch
Я пытаюсь выполнить сканирование с помощью Nutch в Eclipse. Я использую файл с именем urls, и он содержит http://www.google.com/ Однако, когда я запускаю проект, класс Generator сообщает мне, что: "0 записей выбрано для извлечения,...
577 просмотров
schedule 29.05.2023

стоп-слова и синонимы в nutch
есть ли возможность настроить стоп-слова и синонимы в nutch crawler synonyms gov-->government что-то похожее на это`
252 просмотров
schedule 14.02.2023

Apache Nutch не индексирует весь веб-сайт, только вложенные папки
Apache Nutch 1.2 не индексирует весь веб-сайт, только вложенные папки. Моя индексная страница содержит ссылки в большинстве областей / подпапок моего веб-сайта. Например, всякие вещи, студенты, исследования ... Но нутч ползет только в одной...
2023 просмотров
schedule 06.08.2022

Запустите Nutch на существующем кластере Hadoop
У нас есть кластер Hadoop (Hadoop 0.20), и я хочу использовать Nutch 1.2 для импорта некоторых файлов через HTTP в HDFS, но мне не удалось запустить Nutch в кластере. Я обновил скрипт $HADOOP_HOME/bin/hadoop , чтобы добавить jar-файлы Nutch в путь...
4440 просмотров
schedule 26.10.2023

Увеличьте пространство кучи Java для подключаемого модуля идентификатора языка в nutch
Я пытаюсь добавить новый язык в инструмент автоматического определения языка Apache tika. Для добавления нового языка необходимо создать языковой профиль. Поэтому я использую плагин Nutch Language-Identifier для создания этого профиля. Команда...
1294 просмотров
schedule 10.05.2022

пересканировать URL-адреса в nutch 1.3
Я настроил re_crawler для ежедневной загрузки сайта. но он получает этот сайт 3 раза. какое свойство я должен установить в Nutch? Благодарю.
751 просмотров
schedule 12.05.2022

Предложения как документы в Nutch
Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов обхода. Причина в том, что Solr при индексации видит каждое предложение как документ. В результате мне нужно иметь возможность выполнить поиск, скажем, «одно...
315 просмотров
schedule 05.04.2022

удалить URL-адрес из crawldb в Nutch 1.3?
Я сканирую сайты в Nutch 1.3. теперь я хочу удалить URL-адрес из crawldb, как я могу это сделать? как я читаю из crawldb? Я хочу видеть URL-адреса, которые существуют в crawldb.
1251 просмотров
schedule 01.05.2024

Solr: я установил `hl=true`, но сводки не выводятся
Мне нужно получить фрагменты из документов, в которых условия запроса совпадают, чтобы иметь возможность выводить результаты, аналогичные фрагменту кода Google под URL-адресом веб-сайта. Например: Фрагмент — Википедия, бесплатная энциклопедия...
486 просмотров

nutch Не удалось успешно разобрать содержимое
Я пытаюсь сканировать с помощью nutch 1.4, но сталкиваюсь с ошибкой при синтаксическом анализе, это файл журнала: 2012-01-09 09:12:02,696 INFO parse.ParseSegment - ParseSegment: starting at 2012-01-09 09:12:02 2012-01-09 09:12:02,697...
4371 просмотров
schedule 17.09.2022

nutch - как просканировать файл определенного типа?
Можно ли определить конкретный тип файла, который будет сканироваться? Я пытаюсь обойти файл regex-urlfildtr.txt, но вижу только, как указать, какой тип НЕ сканировать. Можно ли определить, что я хочу сканировать только, скажем, файлы .doc?
370 просмотров
schedule 10.09.2023

Ошибка пути Nutch
следуя этому руководству http://wiki.apache.org/nutch/NutchTutorial и http://www.nutchinstall.blogspot.com/ когда я принимаю команду bin/nutch crawl urls -dir crawl -depth 3 -topN 5 у меня есть эта ошибка LinkDb: adding segment:...
1113 просмотров
schedule 30.12.2023

поиск solr со всеми извлекаемыми документами
Я использовал nutch 1.4 для обхода веб-сайтов и проиндексировал данные в solr 3.5. это было успешно. Я использовал Luke для проверки данных индекса и обнаружил, что было получено 1678 документов. но когда я ввел строку запроса (всего несколько...
276 просмотров
schedule 05.04.2023

Возврат реферата веб-страницы с помощью Solr
Я успешно просканировал сайт с помощью Nutch и пытаюсь вернуть выделенную аннотацию, используя Solr в качестве индексатора/поисковика. Итак, если я запрашиваю «океан», я хочу вернуть абстракцию из 20-30 слов только из текста веб-страницы (а не...
290 просмотров
schedule 26.08.2022