Zend Lucene — токенизация шведских символов

Я использую Zend Lucene для индексации шведских текстов. Проблема в том, что lucene маркирует слова шведскими символами åäö. Например, слово «världens» становится в указателе двумя словами «v» и «ldens».

Есть ли способ добавить символы, которые zend lucene должен принимать, а не токенизировать?


person Martin    schedule 30.12.2009    source источник


Ответы (2)


используйте UTF-8 совместимый анализатор текста вместо ссылки анализатор текста по умолчанию для токенизации. обратите внимание, что для этого требуется, чтобы библиотека PHP PCRE (Perl-совместимые регулярные выражения) была скомпилирована с поддержкой UTF-8 (по умолчанию если вы используете библиотеку PCRE, связанную с PHP, но, возможно, не включенную, если вы используете разделяемую библиотеку). для нечувствительных к регистру версий анализаторов, совместимых с UTF-8, вам также необходимо включить расширение mbstring.

person ax.    schedule 30.12.2009

Использование анализаторов. См. документацию по анализ текста, с использованием utf8 и документы о написании собственного анализатора. Я рекомендую вам просто использовать анализатор UTF-8.

person Yacoby    schedule 30.12.2009