Периодическое индексирование нескольких источников данных с помощью Apache Solr и обновление подмножества полей без обновления документа

У меня следующая ситуация:

2 источника данных должны быть проиндексированы Apache Solr.

  1. RDBM - постоянно в наличии
  2. CSV-файл, который можно время от времени отправлять в систему.

Файл CSV просто обновляет 2 поля в уже существующих документах в Solr.

Но у меня есть следующая проблема: кажется невозможным обновить только некоторое подмножество полей с помощью DataImportHandler. Это действительно невозможно или есть какая-то хитрость?


person Ilya Naryzhnyy    schedule 03.12.2013    source источник


Ответы (1)


Я считаю, что ваша проблема заключается в попытке «обновить» существующий документ только с двумя полями. Какую версию Solr вы используете? Частичные обновления поддерживаются только для Solr 4.x.

Вот некоторая информация о том, что такое частичные обновления и как их выполнять: http://wiki.apache.org/solr/Atomic_Updates

http://solr.pl/en/2012/07/09/solr-4-0-partial-documents-update/

person Xinzz    schedule 04.12.2013
comment
Я использую 4.6.0. Обновление через json работает нормально, но массовое обновление с помощью DataImportHandler просто переписывает существующие документы. - person Ilya Naryzhnyy; 04.12.2013
comment
К сожалению, DIH не поддерживает частичные обновления. Я думаю, что есть открытый билет jira, чтобы добавить это. - person Xinzz; 04.12.2013
comment
stackoverflow.com/questions/17327473/ - person Xinzz; 04.12.2013