Пакет для сравнения LSA, TFIDF, косинусных метрик и языковых моделей

Я ищу пакет (на самом деле, на любом языке), который я могу использовать в корпусе из 50 документов для выполнения проверки сходства между документами по различным показателям, таким как tfidf, okapi, языковые модели, lsa и т. д.

В результате я хочу получить матрицу сходства документов, т. Е. doc1 на x% похож на doc2 и т. д. Это для исследовательских целей, а не для производства. Мне особенно нужна матрица сходства документов, поскольку я хочу сопоставить ее с человеческими рейтингами.

Заранее спасибо!


person gouwsmeister    schedule 12.10.2009    source источник


Ответы (1)


Если вы знаете Python, вы можете использовать http://www.nltk.org — там есть все, что вам нужно, и плюс это документация и язык python

person roman    schedule 02.05.2010