Быстрая нормализация символов ESP

Я запускаю приложение поиска на сервере FAST ESP. Теперь у меня проблема с нормализацией символов.

Я хочу найти «wurth» и найти «wurth».

я пытался настроить следующее в esp/etc/tokenizer/tokenization.xml

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

но, конечно, это переводит все u на ü, что бесполезно.

Как настроить это правильно?


person jorgen    schedule 08.10.2009    source источник


Ответы (3)


Решение состоит в том, чтобы нормализовать каждый «специальный символ» до одного и того же «нормального символа»;

ö -> o ø -> o å -> a ä -> a æ -> a

Это занимает немного времени, но это работает!

person jorgen    schedule 20.10.2009

Прочтите руководство по передовой логистике. Он содержит главу о нормализации символов. Когда вы будете следовать инструкциям руководства, все специальные символы будут рассматриваться как обычные символы. Таким образом, поиск über даст те же результаты, что и поиск uber.

person Edward Smit    schedule 03.11.2009
comment
Вы не имеете в виду Advanced Linguistics Guide? - person darasd; 15.02.2012

Также вы можете установить пользовательские словари, доступные в службе поддержки MS, а затем предоставить словарь для каждого языка. Поэтому, если вы установите немецкий язык, поисковая система поймет, что вы пытаетесь найти, с помощью функции «Вы имели в виду». Вы можете включить поисковые запросы после установки словаря. Также не забудьте правильно настроить схему поиска с правильной кодировкой символов для многоязычной поддержки. Если документы в коллекции не проиндексированы с правильной кодировкой символов, любые ваши усилия по токенизации и завершению запроса бесполезны.

person Saul Rosales    schedule 31.10.2017