Подобие группы текстовых документов

Я ищу алгоритм, который пытается проверить

1) сходство предложений (около 5000) друг с другом в документе

2) сходство нескольких документов (около 5000) по отношению друг к другу

Мне нужно то же самое, потому что я пытаюсь оценить, похожи ли текстовые документы/предложения, относящиеся к определенной категории, друг на друга. Существуют ли какие-либо существующие методы для того, чтобы сделать то же самое.


person Yashaswi Reddy    schedule 16.05.2017    source источник
comment
Существует (как отметил @Anony-Mousse ниже несколько подходов, стандартный - это нормализация TF-IDF, а затем вычисление косинусного подобия. Вы что-то пробовали? Какой язык вы планируете использовать (R, Python и т. д.)? Вы просто хотите указатель в определенном направлении или у вас есть более конкретная проблема?   -  person Umberto    schedule 24.05.2017


Ответы (1)


Стандартный подход заключается в использовании подобия косинуса с нормализацией TF-IDF.

Есть много вариантов этого, вам нужно будет поэкспериментировать, что лучше всего подходит для вас.

person Has QUIT--Anony-Mousse    schedule 17.05.2017