Подобие группы текстовых документов

Я ищу алгоритм, который пытается проверить

1) сходство предложений (около 5000) друг с другом в документе

2) сходство нескольких документов (около 5000) по отношению друг к другу

Мне нужно то же самое, потому что я пытаюсь оценить, похожи ли текстовые документы/предложения, относящиеся к определенной категории, друг на друга. Существуют ли какие-либо существующие методы для того, чтобы сделать то же самое.

text-mining sentence-similarity data-mining

Yashaswi Reddy 16.05.2017 источник

comment

Существует (как отметил @Anony-Mousse ниже несколько подходов, стандартный - это нормализация TF-IDF, а затем вычисление косинусного подобия. Вы что-то пробовали? Какой язык вы планируете использовать (R, Python и т. д.)? Вы просто хотите указатель в определенном направлении или у вас есть более конкретная проблема? - Umberto 24.05.2017

Ответы (1)

arrow_upward
1
arrow_downward

Стандартный подход заключается в использовании подобия косинуса с нормализацией TF-IDF.

Есть много вариантов этого, вам нужно будет поэкспериментировать, что лучше всего подходит для вас.

Has QUIT--Anony-Mousse 17.05.2017

Подобие группы текстовых документов

Ответы (1)

Вопросы по теме