Разница между матрицами терминов документа

Предположим, у меня есть набор 100 документов, 70 по политике и 30 по математике (странная комбинация, я это знаю). Моя цель — представить их на xy с помощью таких методов, как анализ многомерного масштабирования, сетевой анализ, сом и т. д. Когда я рассматриваю весь набор документов, я делаю так:

  • Я создаю корпус (docs) из 100 элементов;
  • из корпуса я создаю матрицу терминов документа (dtm);
  • из dtm я создаю матрицу расстояний (dist) относительно терминов, составляющих документы, или относительно самих документов (в соответствии с тем, что я хочу представить).

Очевидно, что я могу сделать отдельные графики для двух, но я хотел бы сделать что-то другое. У меня есть три корпуса (docs_tot, docs_P, docs_M) и три матрицы терминов документа (dtm_tot, dtm_P, dtm_M).

Решения:

1) представление суммы документов по xy, раскрашивая политические и математические документы по-разному. Таким образом я могу видеть, представляют ли они естественные кластеры на xy.

2) проведение сетевого анализа различий. Существует ли концептуальный способ вычитания, например, dtm_P и dtm_tot, зная, что dtm_P имеет только подмножество (70) из документы dtm_tot (100)?


person Andrea Ianni ௫    schedule 01.04.2016    source источник


Ответы (1)


Похоже, вы могли бы рассмотреть возможность использования comparison.cloud(). Вот пример со страницы справки пакета wordcloud:

library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

введите здесь описание изображения

Это также работает для более чем двух групп, как показано, например, здесь.

Надеюсь это поможет.

person RHertel    schedule 01.04.2016
comment
Это не совсем то, что я искал, но... тем не менее, это интересное решение! - person Andrea Ianni ௫; 01.04.2016