Я пытаюсь сравнить «консенсусное» предсказание темы (бета) по терминам (в заданном документе) с наиболее вероятной предсказанной темой из самого документа (гамма), используя функции из topicmodels
. Хотя легко извлечь наиболее вероятную предсказанную тему из документа, используя groupby()
над документом и выбирая top_n()
в гамме, но в «бета-оценке» уникальный идентификатор документа будет подавлен в выводе, вывод содержит только три столбца (topic
, term
, beta
). Это не позволяет получить «консенсусное» предсказание темы (бета) из терминов для данного документа.
Используя мои собственные данные в качестве примера:
Sys.setlocale("LC_ALL","Chinese") # reset to simplified Chinese encoding as the text data is in Chinese
library(foreign)
library(dplyr)
library(plyr)
library(tidyverse)
library(tidytext)
library(tm)
library(topicmodels)
sample_dtm <- readRDS(gzcon(url("https://www.dropbox.com/s/gznqlncd9psx3wz/sample_dtm.rds?dl=1")))
lda_out <- LDA(sample_dtm, k = 2, control = list(seed = 1234))
word_topics <- tidy(lda_out, matrix = "beta")
head(word_topics, n = 4)
# A tibble: 6 x 3
topic term beta
<int> <chr> <dbl>
1 1 费解 8.49e- 4
2 2 费解 1.15e- 9
3 1 上 2.92e- 3
document_gamma <- tidy(lda_out, matrix = "gamma")
head(document_gamma, n = 4)
# A tibble: 6 x 3
document topic gamma
<chr> <int> <dbl>
1 1203232 1 0.00374
2 529660 1 0.0329
3 738921 1 0.00138
4 963374 1 0.302
Могу ли я в любом случае восстановить идентификатор документа из вывода lda
и объединить его с оценкой beta
(word_topics
, которая хранится как объект data.frame
)? Таким образом, будет намного проще сравнить предполагаемую тему из консенсуса beta
с темой из gamma
.