возврат процента нечеткого совпадения в результате запроса solr

Я реализовал нечеткое совпадение solr/lucene для своей системы, и оно отлично работает.

У меня есть требование отображать процентное нечеткое совпадение после того, как запрос отправляет ответ обратно. Например, если мои данные индекса «рушикупадхья» и если мой запрос «рушикупадхья» ~ 0,8, я должен получить точный процент как часть ответа, например 0,85 или 85%.

Я хочу использовать процентный результат как часть приложения и выполнять дополнительные шаги на основе возвращаемого значения, например, если процентное совпадение составляет 70–80%, выполните X, 80–90% — Y и> 90% — Z.

Любые указатели приветствуются.


person Rushik    schedule 28.09.2011    source источник


Ответы (1)


Обратите внимание: руководство, приведенное в этом сообщении на Lucene Wiki — ScoresAsPercentages, которые вы, возможно, захотите просмотреть, прежде чем принять решение использовать чисто процентную логику.

Однако, если вы решите использовать процентное значение, вы можете получить это значение, также включив поле оценки в ответ на запрос. См. страницу администратора Solr (ссылка на полный интерфейс), которая направит вас к /admin/form.jsp. В параметре Поля для возврата он показывает: *,score Это вернет оценку совпадения для каждого документа в наборе результатов. . Однако обратите внимание, что это необработанная оценка соответствия документа, которая относится к значению maxScore, являющемуся частью элемента <result>. Таким образом, чтобы получить истинную процентную оценку для каждого документа, вам необходимо нормализовать оценку каждого документа по отношению к maxScore, используя такую ​​логику, как (score/maxScore * 100), чтобы получить правильное процентное значение для отображения.

person Paige Cook    schedule 28.09.2011
comment
Эта рекомендация (в ссылке) не применяется в данном конкретном случае. Да, естественная оценка соответствия привязана ко всему массиву документов в индексе, но нечеткие запросы основаны на расстоянии Левенштейна, которое имеет значение в [0,1] независимо от других документов. Я думаю, это то, что ОП хотел отобразить в результатах. - person Silvio Donnini; 06.06.2012