Быстрая нормализация символов ESP

Я запускаю приложение поиска на сервере FAST ESP. Теперь у меня проблема с нормализацией символов.

Я хочу найти «wurth» и найти «wurth».

я пытался настроить следующее в esp/etc/tokenizer/tokenization.xml

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

но, конечно, это переводит все u на ü, что бесполезно.

Как настроить это правильно?

tokenize character-encoding fast-esp

jorgen 08.10.2009 источник

Ответы (3)

arrow_upward
1
arrow_downward

Решение состоит в том, чтобы нормализовать каждый «специальный символ» до одного и того же «нормального символа»;

ö -> o ø -> o å -> a ä -> a æ -> a

Это занимает немного времени, но это работает!

jorgen 20.10.2009

arrow_upward
0
arrow_downward

Прочтите руководство по передовой логистике. Он содержит главу о нормализации символов. Когда вы будете следовать инструкциям руководства, все специальные символы будут рассматриваться как обычные символы. Таким образом, поиск über даст те же результаты, что и поиск uber.

Edward Smit 03.11.2009

comment

Вы не имеете в виду Advanced Linguistics Guide? - darasd; 15.02.2012

arrow_upward
0
arrow_downward

Также вы можете установить пользовательские словари, доступные в службе поддержки MS, а затем предоставить словарь для каждого языка. Поэтому, если вы установите немецкий язык, поисковая система поймет, что вы пытаетесь найти, с помощью функции «Вы имели в виду». Вы можете включить поисковые запросы после установки словаря. Также не забудьте правильно настроить схему поиска с правильной кодировкой символов для многоязычной поддержки. Если документы в коллекции не проиндексированы с правильной кодировкой символов, любые ваши усилия по токенизации и завершению запроса бесполезны.

Saul Rosales 31.10.2017

Быстрая нормализация символов ESP

Ответы (3)

Вопросы по теме