Вопросы по теме 'nutch'
Использование краулера Nutch с Solr
Могу ли я интегрировать искатель Apache Nutch с сервером Solr Index?
Изменить:
Один из наших разработчиков предложил решение из этих сообщений
Запуск Nutch и Solr
Обновление для Running Nutch и Solr
Ответ
да
10632 просмотров
schedule
21.03.2023
Сравнительный анализ производительности для Apache Nutch
Я хочу знать, существуют ли какие-либо существующие тесты и информация о размерах для развертывания поисковой системы на основе apache nutch. Я хочу знать, скажем, 10 миллионов поисковых запросов в месяц, какой должен быть размер оборудования,...
1051 просмотров
schedule
06.11.2022
как сделать ИЛИ искать в nutch?
Скажем, искать результаты, поле которых «A» или «B»?
кажется, по умолчанию используется И.
429 просмотров
schedule
26.04.2023
Nutch Многопоточность
Я пытаюсь настроить nutch для запуска многопоточного сканирования.
Однако я столкнулся с проблемой. Я не могу запустить сканирование с несколькими потоками, я изменил nutch-site.xml, чтобы использовать 25 потоков, но все же вижу только 1...
2307 просмотров
schedule
09.04.2022
Как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http
Я хочу знать, как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http.
Я могу сделать это в локальных файловых системах, используя протокол file://, но не протокол http.
1564 просмотров
schedule
21.11.2022
Заставить nutch расставлять приоритеты на часто обновляемых страницах?
Есть ли способ заставить Nutch увеличить сканирование часто обновляемых страниц?
Например. индексные страницы и каналы.
Также было бы полезно обновлять свежие страницы, которые содержат комментарии чаще, в первую дату после создания страницы....
305 просмотров
schedule
22.04.2023
Пустой список сканирования Nutch
Я пытаюсь выполнить сканирование с помощью Nutch в Eclipse.
Я использую файл с именем urls, и он содержит
http://www.google.com/
Однако, когда я запускаю проект, класс Generator сообщает мне, что:
"0 записей выбрано для извлечения,...
577 просмотров
schedule
29.05.2023
стоп-слова и синонимы в nutch
есть ли возможность настроить стоп-слова и синонимы в nutch crawler
synonyms
gov-->government
что-то похожее на это`
252 просмотров
schedule
14.02.2023
Apache Nutch не индексирует весь веб-сайт, только вложенные папки
Apache Nutch 1.2 не индексирует весь веб-сайт, только вложенные папки. Моя индексная страница содержит ссылки в большинстве областей / подпапок моего веб-сайта. Например, всякие вещи, студенты, исследования ... Но нутч ползет только в одной...
2023 просмотров
schedule
06.08.2022
Запустите Nutch на существующем кластере Hadoop
У нас есть кластер Hadoop (Hadoop 0.20), и я хочу использовать Nutch 1.2 для импорта некоторых файлов через HTTP в HDFS, но мне не удалось запустить Nutch в кластере.
Я обновил скрипт $HADOOP_HOME/bin/hadoop , чтобы добавить jar-файлы Nutch в путь...
4440 просмотров
schedule
26.10.2023
Увеличьте пространство кучи Java для подключаемого модуля идентификатора языка в nutch
Я пытаюсь добавить новый язык в инструмент автоматического определения языка Apache tika. Для добавления нового языка необходимо создать языковой профиль. Поэтому я использую плагин Nutch Language-Identifier для создания этого профиля.
Команда...
1294 просмотров
schedule
10.05.2022
пересканировать URL-адреса в nutch 1.3
Я настроил re_crawler для ежедневной загрузки сайта. но он получает этот сайт 3 раза. какое свойство я должен установить в Nutch? Благодарю.
751 просмотров
schedule
12.05.2022
Предложения как документы в Nutch
Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов обхода. Причина в том, что Solr при индексации видит каждое предложение как документ.
В результате мне нужно иметь возможность выполнить поиск, скажем, «одно...
315 просмотров
schedule
05.04.2022
удалить URL-адрес из crawldb в Nutch 1.3?
Я сканирую сайты в Nutch 1.3. теперь я хочу удалить URL-адрес из crawldb, как я могу это сделать? как я читаю из crawldb? Я хочу видеть URL-адреса, которые существуют в crawldb.
1251 просмотров
schedule
01.05.2024
Solr: я установил `hl=true`, но сводки не выводятся
Мне нужно получить фрагменты из документов, в которых условия запроса совпадают, чтобы иметь возможность выводить результаты, аналогичные фрагменту кода Google под URL-адресом веб-сайта. Например:
Фрагмент — Википедия, бесплатная энциклопедия...
486 просмотров
schedule
29.10.2022
nutch Не удалось успешно разобрать содержимое
Я пытаюсь сканировать с помощью nutch 1.4, но сталкиваюсь с ошибкой при синтаксическом анализе, это файл журнала:
2012-01-09 09:12:02,696 INFO parse.ParseSegment - ParseSegment: starting at 2012-01-09 09:12:02
2012-01-09 09:12:02,697...
4371 просмотров
schedule
17.09.2022
nutch - как просканировать файл определенного типа?
Можно ли определить конкретный тип файла, который будет сканироваться?
Я пытаюсь обойти файл regex-urlfildtr.txt, но вижу только, как указать, какой тип НЕ сканировать.
Можно ли определить, что я хочу сканировать только, скажем, файлы .doc?
370 просмотров
schedule
10.09.2023
Ошибка пути Nutch
следуя этому руководству http://wiki.apache.org/nutch/NutchTutorial и http://www.nutchinstall.blogspot.com/
когда я принимаю команду
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
у меня есть эта ошибка
LinkDb: adding segment:...
1113 просмотров
schedule
30.12.2023
поиск solr со всеми извлекаемыми документами
Я использовал nutch 1.4 для обхода веб-сайтов и проиндексировал данные в solr 3.5. это было успешно. Я использовал Luke для проверки данных индекса и обнаружил, что было получено 1678 документов. но когда я ввел строку запроса (всего несколько...
276 просмотров
schedule
05.04.2023
Возврат реферата веб-страницы с помощью Solr
Я успешно просканировал сайт с помощью Nutch и пытаюсь вернуть выделенную аннотацию, используя Solr в качестве индексатора/поисковика. Итак, если я запрашиваю «океан», я хочу вернуть абстракцию из 20-30 слов только из текста веб-страницы (а не...
290 просмотров
schedule
26.08.2022