Может ли кто-нибудь указать мне на алгоритм релевантности контента?

На моем столе появился новый проект с некоторыми интересными требованиями. Мне нужно разработать доступный для поиска каталог предприятий с упором на предоставление релевантных результатов на основе произвольных поисковых запросов. Бизнес может быть любой ниши; нет ни одной области, которая была бы более представлена, чем другая.

При поиске в Google таких вещей, как «алгоритм поиска» или «алгоритм релевантности контента», все, что я получаю, — это ссылки на «Мистический алгоритм древних богов» Google и SEO-фирмы.

Имеет ли значение релевантности полнотекстовой Match() функции MySQL то, что нужно для задачи? Я никогда не использовал его, но я определенно собираюсь сделать некоторые тесты. Кроме того, поскольку это будет в значительной степени редактируемый каталог, я могу предположить, что мы можем добавить взвешенные факторы, такие как теги и категории. Что было бы хорошим способом объединить эти факторы с релевантностью Match() MySQL?

Я также открыт для идей, которые я не обсуждал здесь.


person Stephen    schedule 22.10.2010    source источник


Ответы (3)


Для примера методов поиска информации на основе поиска TF-IDF или BM25.

Для методов, основанных на машинном обучении, найдите RankNet и его варианты из МСР.

person Amit Prakash    schedule 23.10.2010
comment
Это именно то, что я искал. Спасибо! - person Stephen; 23.10.2010

Если у вас есть данные, отредактированные вручную, посмотрите текст Oracle. поиск. В одном из моих предыдущих проектов у нас были хорошие результаты.

Я не принимал непосредственного участия в настройке базы данных, но знаю, что результаты были очень кстати. (До этого у них был только поиск по ключевым словам).

person Nivas    schedule 22.10.2010
comment
Спасибо за это! Однако у меня есть требование использовать MySQL. - person Stephen; 23.10.2010

Используйте поисковую систему, например Solr, для индексации данных. Вы по-прежнему можете использовать MySql для хранения данных, но для поиска используйте поисковую систему.

person Jon Snyder    schedule 27.10.2010