Существует ли алгоритм определения релевантности текста теме?

Я хочу знать, что можно использовать для определения релевантности страницы для такой темы, как игры, фильмы и т. д.

Есть ли какие-то исследования в этой области или только подсчитывается, сколько раз встречаются некоторые релевантные слова?


person Renato Dinhani    schedule 16.01.2012    source источник


Ответы (1)


Обычный выбор — контролируемая классификация документов по набору слов (или пакету n-граммов), желательно с взвешиванием tf-idf.

Популярные алгоритмы включают наивный байесовский алгоритм и (линейные) SVM.

Для этого подхода вам потребуются помеченные обучающие данные, т. е. документы, аннотированные соответствующими темами.

См., например, Введение в поиск информации, главы 13. -15.

person Fred Foo    schedule 16.01.2012