Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?

Я новичок в Solr. Я хочу знать, когда использовать StandardTokenizerFactory и KeywordTokenizerFactory?

Я читал документы на Apache Wiki, но не понимаю.

Кто-нибудь может объяснить разницу между StandardTokenizerFactory и KeywordTokenizerFactory?


person ravidev    schedule 04.10.2011    source источник


Ответы (1)


StandardTokenizerFactory :-
Токенизирует пробелы, а также удаляет символы.

Документация :-

Разбивает слова по знакам препинания, удаляя знаки препинания. Однако точка, за которой не следует пробел, считается частью токена. Разбивает слова по дефисам, если в токене нет числа. В этом случае весь токен интерпретируется как номер продукта и не делится. Распознает адреса электронной почты и имена хостов в Интернете как один токен.

Будет использовать это для полей, в которых вы хотите искать данные поля.

e.g. -

http://example.com/I-am+example?Text=-Hello

сгенерирует 7 токенов (разделенных запятой) -

http,example.com,I,am,example,Text,Hello

Ключевое словоTokenizerFactory: -

Keyword Tokenizer вообще не разделяет входные данные.
Строка не обрабатывается, и вся строка рассматривается как единое целое.
На самом деле это не выполняет никакой токенизации. Он возвращает исходный текст как один термин.

В основном используется для требований сортировки или фасетирования, когда вы хотите сопоставить точный аспект при фильтрации по нескольким словам и сортировке, поскольку сортировка не работает с токенизированными полями.

e.g.

http://example.com/I-am+example?Text=-Hello

будет генерировать один токен -

http://example.com/I-am+example?Text=-Hello
person Jayendra    schedule 04.10.2011
comment
StandardTokenizerFactory не разделяет все знаки препинания, например, слово, содержащее апостроф (например, can't won't и т. д.), останется без изменений. - person Qwerky; 04.10.2011
comment
ага. как уже упоминалось, он не разделяет все специальные символы и не удаляет все специальные символы. В нем есть определенные правила. - person Jayendra; 04.10.2011