Я конвертирую проект из solr в cloudsearch, и у меня возникла проблема, для которой я не могу найти обходной путь после довольно долгого поиска в документе и в Интернете. Я надеюсь, что кто-то еще может помочь.
Я не могу описать истинные детали, но самый близкий пример моей проблемы, который я могу найти, - это обнаружение плагиата. Представьте, что вы загрузили кучу опубликованных документов в облачный поиск, а затем взяли любительский документ в качестве запроса, чтобы посмотреть, есть ли совпадение.
Учитывая проиндексированный документ - скажем, страницу Tyrannosaurus в Википедии:
Как и другие тираннозавриды, тираннозавр был двуногим плотоядным животным с массивным черепом, уравновешенным длинным тяжелым хвостом.
Затем появляется любительский документ:
Я хищник, и мне нравится тираннозавр, потому что он тоже был двуногим хищником.
По причинам, важным для проекта, я создаю распределение интересных слов, а не запрос с полным текстом, например:
carnivore: 2
tyrannosaurus: 1
И я хотел бы придать больше предвзятости слову «хищник» в статье в Википедии, чем слову «тираннозавр».
В solr я усиливаю запрос с помощью оператора «^», например. "хищник^2".
Из того, что я могу найти, cloudsearch выполняет повышение как «выражения ранга», но я не нашел ничего похожего на мою проблему.
Любые идеи?