Публикации по тегам nutch [solr, lucene, nutch, apache, search-engine]

Вопросы по теме 'nutch'

Могу ли я интегрировать искатель Apache Nutch с сервером Solr Index? Изменить: Один из наших разработчиков предложил решение из этих сообщений Запуск Nutch и Solr Обновление для Running Nutch и Solr Ответ да

10632 просмотров

solr lucene nutch

21.03.2023

Сравнительный анализ производительности для Apache Nutch

Я хочу знать, существуют ли какие-либо существующие тесты и информация о размерах для развертывания поисковой системы на основе apache nutch. Я хочу знать, скажем, 10 миллионов поисковых запросов в месяц, какой должен быть размер оборудования,...

1051 просмотров

apache search-engine nutch

06.11.2022

как сделать ИЛИ искать в nutch?

Скажем, искать результаты, поле которых «A» или «B»? кажется, по умолчанию используется И.

429 просмотров

search nutch

26.04.2023

Nutch Многопоточность

Я пытаюсь настроить nutch для запуска многопоточного сканирования. Однако я столкнулся с проблемой. Я не могу запустить сканирование с несколькими потоками, я изменил nutch-site.xml, чтобы использовать 25 потоков, но все же вижу только 1...

2307 просмотров

nutch

09.04.2022

Как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http

Я хочу знать, как я могу сканировать файлы PDF, которые обслуживаются в Интернете, с помощью Nutch-1.0 с использованием протокола http. Я могу сделать это в локальных файловых системах, используя протокол file://, но не протокол http.

1564 просмотров

web-crawler filesystems nutch

21.11.2022

Заставить nutch расставлять приоритеты на часто обновляемых страницах?

Есть ли способ заставить Nutch увеличить сканирование часто обновляемых страниц? Например. индексные страницы и каналы. Также было бы полезно обновлять свежие страницы, которые содержат комментарии чаще, в первую дату после создания страницы....

305 просмотров

web-crawler nutch

22.04.2023

Пустой список сканирования Nutch

Я пытаюсь выполнить сканирование с помощью Nutch в Eclipse. Я использую файл с именем urls, и он содержит http://www.google.com/ Однако, когда я запускаю проект, класс Generator сообщает мне, что: "0 записей выбрано для извлечения,...

577 просмотров

java eclipse nutch

29.05.2023

стоп-слова и синонимы в nutch

есть ли возможность настроить стоп-слова и синонимы в nutch crawler synonyms gov-->government что-то похожее на это`

252 просмотров

nutch

14.02.2023

Apache Nutch не индексирует весь веб-сайт, только вложенные папки

Apache Nutch 1.2 не индексирует весь веб-сайт, только вложенные папки. Моя индексная страница содержит ссылки в большинстве областей / подпапок моего веб-сайта. Например, всякие вещи, студенты, исследования ... Но нутч ползет только в одной...

2023 просмотров

web-crawler solr nutch

06.08.2022

Запустите Nutch на существующем кластере Hadoop

У нас есть кластер Hadoop (Hadoop 0.20), и я хочу использовать Nutch 1.2 для импорта некоторых файлов через HTTP в HDFS, но мне не удалось запустить Nutch в кластере. Я обновил скрипт $HADOOP_HOME/bin/hadoop , чтобы добавить jar-файлы Nutch в путь...

4440 просмотров

hadoop cluster-computing nutch

26.10.2023

Увеличьте пространство кучи Java для подключаемого модуля идентификатора языка в nutch

Я пытаюсь добавить новый язык в инструмент автоматического определения языка Apache tika. Для добавления нового языка необходимо создать языковой профиль. Поэтому я использую плагин Nutch Language-Identifier для создания этого профиля. Команда...

1294 просмотров

java hadoop nutch

10.05.2022

пересканировать URL-адреса в nutch 1.3

Я настроил re_crawler для ежедневной загрузки сайта. но он получает этот сайт 3 раза. какое свойство я должен установить в Nutch? Благодарю.

751 просмотров

web-crawler nutch

12.05.2022

Предложения как документы в Nutch

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов обхода. Причина в том, что Solr при индексации видит каждое предложение как документ. В результате мне нужно иметь возможность выполнить поиск, скажем, «одно...

315 просмотров

search indexing web-crawler lucene nutch

05.04.2022

удалить URL-адрес из crawldb в Nutch 1.3?

Я сканирую сайты в Nutch 1.3. теперь я хочу удалить URL-адрес из crawldb, как я могу это сделать? как я читаю из crawldb? Я хочу видеть URL-адреса, которые существуют в crawldb.

1251 просмотров

urlfetch web-crawler nutch

01.05.2024

Solr: я установил `hl=true`, но сводки не выводятся

Мне нужно получить фрагменты из документов, в которых условия запроса совпадают, чтобы иметь возможность выводить результаты, аналогичные фрагменту кода Google под URL-адресом веб-сайта. Например: Фрагмент — Википедия, бесплатная энциклопедия...

486 просмотров

solr lucene information-retrieval search-engine nutch

29.10.2022

nutch Не удалось успешно разобрать содержимое

Я пытаюсь сканировать с помощью nutch 1.4, но сталкиваюсь с ошибкой при синтаксическом анализе, это файл журнала: 2012-01-09 09:12:02,696 INFO parse.ParseSegment - ParseSegment: starting at 2012-01-09 09:12:02 2012-01-09 09:12:02,697...

4371 просмотров

web-crawler solr nutch

17.09.2022

nutch - как просканировать файл определенного типа?

Можно ли определить конкретный тип файла, который будет сканироваться? Я пытаюсь обойти файл regex-urlfildtr.txt, но вижу только, как указать, какой тип НЕ сканировать. Можно ли определить, что я хочу сканировать только, скажем, файлы .doc?

370 просмотров

java nutch

10.09.2023

Ошибка пути Nutch

следуя этому руководству http://wiki.apache.org/nutch/NutchTutorial и http://www.nutchinstall.blogspot.com/ когда я принимаю команду bin/nutch crawl urls -dir crawl -depth 3 -topN 5 у меня есть эта ошибка LinkDb: adding segment:...

1113 просмотров

nutch

30.12.2023

поиск solr со всеми извлекаемыми документами

Я использовал nutch 1.4 для обхода веб-сайтов и проиндексировал данные в solr 3.5. это было успешно. Я использовал Luke для проверки данных индекса и обнаружил, что было получено 1678 документов. но когда я ввел строку запроса (всего несколько...

276 просмотров

solr nutch

05.04.2023

Возврат реферата веб-страницы с помощью Solr

Я успешно просканировал сайт с помощью Nutch и пытаюсь вернуть выделенную аннотацию, используя Solr в качестве индексатора/поисковика. Итак, если я запрашиваю «океан», я хочу вернуть абстракцию из 20-30 слов только из текста веб-страницы (а не...

290 просмотров

solr nutch

26.08.2022