Отображение метаданных Tika Solr игнорирует заголовок документа

У меня есть следующий файл конфигурации для solr:

  <requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <!-- All the main content goes into "text"... if you need to return
           the extracted text or do highlighting, use a stored field. -->
      <str name="lowernames">true</str>
      <str name="fmap.content">content</str>
      <str name="fmap.application_name">type</str>
      <str name="fmap.content_type">mime</str>
      <str name="fmap.stream_size">size</str>
      <str name="uprefix">ignored_</str>
      <str name="captureAttr">false</str>
    </lst>
  </requestHandler>

и это моя схема:

   <field name="id" type="string" indexed="true" stored="true" required="true" /> 
   <field name="access_type" type="string" indexed="true" stored="false"/>
   <field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
   <field name="title" type="string" indexed="true" stored="true" multiValued="true" />
   <field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="content" type="text_en_splitting" indexed="true" stored="true"/>
   <field name="created" type="date" indexed="true" stored="true"/>
   <field name="createdby" type="string" indexed="true" stored="true"/>
   <field name="modified" type="date" indexed="true" stored="true"/>
   <field name="modifiedby" type="string" indexed="true" stored="true"/>
   <field name="source" type="string" indexed="true" stored="true" />
   <field name="version" type="string" indexed="true" stored="true" />
   <field name="resourcelink" type="string" indexed="true" stored="true" />
   <field name="downloadlink" type="string" indexed="true" stored="true" />

   <field name="type" type="string" indexed="true" stored="true" />
   <field name="mime" type="string" indexed="true" stored="true" />
   <field name="size" type="string" indexed="true" stored="true" />

Я хочу установить title самостоятельно. Но Тика продолжает устанавливать свои собственные title (поэтому я временно установил multiValued="true"), что мне кажется странным, потому что мне приходится вручную сопоставлять такие вещи, как stream_size и content_type.

Какое решение возможно в этом вопросе?

Я бы хотел, чтобы Тика переопределила title, который я назначаю, например так:

У меня есть 3 документа, для одного из них Тика не извлекает title, в этом случае у меня есть собственный заголовок, который я задаю, передавая literal.title, когда Тика извлекает title, я хочу, чтобы он переопределял тот, который я передал в literal.title . Это возможно?


person bevacqua    schedule 21.12.2011    source источник
comment
Можете ли вы указать расположение конфигурационного файла и схемы solr?   -  person zygimantus    schedule 19.01.2017


Ответы (2)


Некоторое время назад я работал над той же проблемой, но тоже столкнулся со стеной :( Я позволил Тике взять «название» и использовать literal.other_title_like_field для хранения правильного заголовка. Это не лучшее решение, но сработало для меня.

person Fuxi    schedule 26.12.2011
comment
Может быть, вы можете привести пример, как это сделать? Или ссылку об этом? - person zygimantus; 19.01.2017
comment
Извините, давно не пользовался - person Fuxi; 20.01.2017

Для тех, кто все еще борется с этой проблемой, я решил ее, добавив

<str name="fmap.title">ignored_</str>

в моих настройках по умолчанию ExtractingRequestHandler.

person Jan Imrich    schedule 19.05.2017