Я использую TF/IDF для вычисления сходства. Например, если у меня есть следующие два файла doc.
Doc A => cat dog
Doc B => dog sparrow
Это нормально, что сходство составляет 50%, но когда я вычисляю его TF/IDF. Это следующее
Значения Tf для документа A
dog tf = 0.5
cat tf = 0.5
Значения Tf для документа B
dog tf = 0.5
sparrow tf = 0.5
Значения IDF для документа A
dog idf = -0.4055
cat idf = 0
Значения IDF для документа B
dog idf = -0.4055 ( without +1 formula 0.6931)
sparrow idf = 0
Значение TF/IDF для документа A
0.5x-0.4055 + 0.5x0 = -0.20275
Значения TF/IDF для документа B
0.5x-0.4055 + 0.5x0 = -0.20275
Теперь похоже, что сходство составляет -0,20275. Это? Или я что-то упускаю? Или это тоже какой-то следующий шаг? Скажите, пожалуйста, чтобы я тоже мог это вычислить.
Я использовал формулу tf/idf, о которой упоминается в Википедии.