Я новичок в Solr. Я хочу знать, когда использовать StandardTokenizerFactory и KeywordTokenizerFactory?
Я читал документы на Apache Wiki, но не понимаю.
Кто-нибудь может объяснить разницу между StandardTokenizerFactory и KeywordTokenizerFactory?
Я новичок в Solr. Я хочу знать, когда использовать StandardTokenizerFactory и KeywordTokenizerFactory?
Я читал документы на Apache Wiki, но не понимаю.
Кто-нибудь может объяснить разницу между StandardTokenizerFactory и KeywordTokenizerFactory?
StandardTokenizerFactory :-
Токенизирует пробелы, а также удаляет символы.
Документация :-
Разбивает слова по знакам препинания, удаляя знаки препинания. Однако точка, за которой не следует пробел, считается частью токена. Разбивает слова по дефисам, если в токене нет числа. В этом случае весь токен интерпретируется как номер продукта и не делится. Распознает адреса электронной почты и имена хостов в Интернете как один токен.
Будет использовать это для полей, в которых вы хотите искать данные поля.
e.g. -
http://example.com/I-am+example?Text=-Hello
сгенерирует 7 токенов (разделенных запятой) -
http,example.com,I,am,example,Text,Hello
Ключевое словоTokenizerFactory: -
Keyword Tokenizer вообще не разделяет входные данные.
Строка не обрабатывается, и вся строка рассматривается как единое целое.
На самом деле это не выполняет никакой токенизации. Он возвращает исходный текст как один термин.
В основном используется для требований сортировки или фасетирования, когда вы хотите сопоставить точный аспект при фильтрации по нескольким словам и сортировке, поскольку сортировка не работает с токенизированными полями.
e.g.
http://example.com/I-am+example?Text=-Hello
будет генерировать один токен -
http://example.com/I-am+example?Text=-Hello
can't
won't
и т. д.), останется без изменений.
- person Qwerky; 04.10.2011