Я пытаюсь точно настроить запрос «более похоже на этот», чтобы он работал с довольно похожими документами (формализованные объявления, большая часть текста является «шаблоном», поэтому важны только определенные абзацы).
Поэтому я хотел бы знать, учитывая выбранный документ, для моего «max_query_terms»: 20, какие термины выбраны, использование объясненного запроса показывает только, какие из них действительно найдены в извлеченных документах, но не весь набор из двадцати токенов.
Я понял, что набор терминов выбирается априори, сравнивая справочный документ с индексом, чтобы построить уникальный запрос «соответствия», но... когда я просматриваю объясненные совпадения, у меня есть более 20 токенов...
Например, если я использую ngrams, max_query_terms применяется к токенам анализируемого текста? или к терминам ДО анализа, т.е. взять 20 слов, ПОТОМ применить к этому набору мои фильтры (стоп-слова, исключения, нграммы и т. д.)?
Есть ли способ через отдых или API получить запрос на совпадение, сгенерированный алгоритмом mlt?