Я ищу пакет (на самом деле, на любом языке), который я могу использовать в корпусе из 50 документов для выполнения проверки сходства между документами по различным показателям, таким как tfidf, okapi, языковые модели, lsa и т. д.
В результате я хочу получить матрицу сходства документов, т. Е. doc1 на x% похож на doc2 и т. д. Это для исследовательских целей, а не для производства. Мне особенно нужна матрица сходства документов, поскольку я хочу сопоставить ее с человеческими рейтингами.
Заранее спасибо!