о косинусном подобии

Я нахожу косинусное сходство между документами .. Я сделал это вот так

D1 = (8,0,0,1), где 8,0,0,1 - оценки tf-idf терминов t1, t2, t3, t4

D2=(7,0,0,1)

cos (тета) = (56 + 0 + 0 + 1) / sqrt (64 + 49) sqrt (1 +1)

что оказывается

соз (тета) = 5

Теперь, что я могу оценить по этому значению ... Я не понимаю, что означает cos (theta) = 5 о схожести между ними ... Правильно ли я делаю?


person jaskirat    schedule 18.05.2010    source источник
comment
cos (тета) всегда находится между -1 и 1. Вы делаете что-то не так. Кроме того, это домашнее задание?   -  person    schedule 18.05.2010


Ответы (1)


Знаменатель неверен.

косинусное сходство определяется как

         D1 · D2
 sim = ———————————
        |D1| |D2|

Здесь

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
           ______________________    __
   |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
           ______________________    __
   |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65

Таким образом, сходство должно быть (57 / √ (50 * 65)) = 0,999846142, а не 5.

person kennytm    schedule 18.05.2010
comment
о, я пренебрегал нулевыми значениями .... как глупо с моей стороны ... спасибо kennyTM ... большое тебе спасибо ... - person jaskirat; 18.05.2010
comment
@jaskirat: Вы не пренебрегали нулевыми значениями. Вы вычислили | D1 | и | D2 | неправильно. Нет ничего лучше √ (7 ^ 2 + 8 ^ 2). - person kennytm; 18.05.2010
comment
о, кк ... ну, я взял ссылку с miislita.com / information-retrieval-tutorial / ... - person jaskirat; 18.05.2010
comment
Я проверяю твой ответ ... но все равно не могу получить тот же ответ, что и ты (0,999846142). - person jaskirat; 18.05.2010
comment
понял, чувак ... я просто перепроверил результаты..спасибо Кенни .. наслаждайся - person jaskirat; 18.05.2010