Коротко о TF-IDF

Еще в 1958 году Ганс Петер Лун в своей статье «Автоматическое создание литературных рефератов» предположил, что «частота появления слов в статье обеспечивает полезное измерение значимости слов», что до сих пор, вероятно, является одним из самых важных аспектов в области информации. Поисковая наука и используется во всех известных больших и малых поисковых системах, начиная от Google и Yahoo и заканчивая специализированными поисковыми решениями, такими как ElasticSearch и Manticore Search.

Значение предположения Луна невозможно переоценить, и многие дальнейшие научные исследования в области информационного поиска были основаны на предположении Луна, хотя не все из них упоминали об этом, поскольку, вероятно, со временем оно стало аксиомой.

В этой статье я попытаюсь показать на очень четких примерах, как TF, обозначающий «частоту термина», и его аналог IDF, обозначающий «инверсную частоту документа», помогают найти то, что вы ищете.

Возьмем 5 документов:

1. My dog doesn't like all my pets, but me and my wife do love them all. A dog cannot be a cat lover
2. Cats and dogs do not like each other, but my cat does like dogs
3. Walking a dog is a good start of the day
4. Not all cats like walking, but some cats do
5. All dogs like walking, but mine doesn't like. It's like so weird

и попробуйте ранжировать их (т. е. найти наиболее и наименее релевантные и порядок) для разных запросов.

Вес = 1, если встречается слово, и 0 в противном случае

Запрос: «Нравится».

Обратите внимание, что мы не знаем, что означает «подобно» в запросе: например, «А похоже на Б» или «Мне нравится что-то». Итак, что мы можем сделать, чтобы ранжировать документы?

Первое, что приходит на ум, это то, что если в документе вообще нет слова «нравится», то он, вероятно, менее актуален. Таким образом, порядок может быть:

1. My dog doesn't like all my pets, but me and my wife do love them all. A dog cannot be a cat lover
2. Cats and dogs do not like each other, but my cat does like dogs
4. Not all cats like walking, but some cats do
5. All dogs like walking, but mine doesn't like. It's like so weird
3. Walking a dog is a good start of the day

Мы поставили документ №3 в самый конец, так как в нем нет слова «нравится». Что касается остальных, мы не изменили их порядок, так как все они содержат «нравится». Является ли качество такого ранжирования достаточно хорошим? Я так не думаю, поскольку среди первых 4 документов есть 2 (№ 5 и № 2), которые кажутся более релевантными, чем другие, поскольку они предоставляют больше фактов, связанных с термином запроса «нравится» (помните, что мы не знаю, что именно подразумевается под словом «нравится» в запросе), но они не входят в топ-2. Итак, что мы можем с этим поделать?

Вес = термин частота

Запрос: «Нравится».

Как было сказано ранее, согласно предположению Луна, документы, содержащие больше вхождений термина запроса, могут быть более релевантными. Давайте ранжируем документы по их частоте терминов (обратите внимание здесь и в области информационного поиска в целом «частота» означает просто количество, а не количество, деленное на что-то, как в физике):

5. All dogs like walking, but mine doesn't like. It's like so weird | tf = 3
2. Cats and dogs do not like each other, but my cat does like dogs | tf = 2
1. My dog doesn't like all my pets, but me and my wife do love them all. A dog cannot be a cat lover | tf = 1
4. Not all cats like walking, but some cats do | tf = 1
3. Walking a dog is a good start of the day | tf = 0

Это решает проблему, теперь документы №5 и №2 находятся в самом верху.

Но давайте теперь попробуем другой запрос — «мой день».

Продолжить чтение на https://manticoresearch.com/2019/04/09/tf-idf-in-a-nutshell/

Коротко о TF-IDF

Вес = 1, если встречается слово, и 0 в противном случае

Вес = термин частота

Вопросы по теме