Я хочу знать, что можно использовать для определения релевантности страницы для такой темы, как игры, фильмы и т. д.
Есть ли какие-то исследования в этой области или только подсчитывается, сколько раз встречаются некоторые релевантные слова?
Я хочу знать, что можно использовать для определения релевантности страницы для такой темы, как игры, фильмы и т. д.
Есть ли какие-то исследования в этой области или только подсчитывается, сколько раз встречаются некоторые релевантные слова?
Обычный выбор — контролируемая классификация документов по набору слов (или пакету n-граммов), желательно с взвешиванием tf-idf.
Популярные алгоритмы включают наивный байесовский алгоритм и (линейные) SVM.
Для этого подхода вам потребуются помеченные обучающие данные, т. е. документы, аннотированные соответствующими темами.
См., например, Введение в поиск информации, главы 13. -15.