Я использовал tidytext и ggplot для вычисления и построения графиков частот биграмм (и tf-idf). Я нанес на график наиболее часто встречающиеся биграммы за четыре временных периода. Однако я не могу понять, как правильно сортировать подсчеты на всех четырех графиках.
Это код, который я использовал:
bigram_tf_idf_plot %>%
arrange(desc(n)) %>%
mutate(bigram = factor(bigram, levels = rev(unique(bigram)))) %>%
group_by(period) %>%
top_n(10, n) %>%
ungroup %>%
ggplot(aes(bigram, n, fill = period)) +
geom_col(show.legend = FALSE) +
labs(x = NULL, y = "n") +
facet_wrap(~period, ncol = 2, scales = "free") +
coord_flip()
bigram = factor(bigram, levels = rev(unique(bigram))
наbigram = fct_reorder(bigram, n)
- person Phil   schedule 27.08.2018reorder_within()
, которая в настоящее время находится в личном пакете R Дэвида Робинсона: github.com/dgrtwo/drlib Или посмотрите, как мы сделали это в нашей главе о данных НАСА: tidytextmining.com/nasa .html#тематическое моделирование - person Julia Silge   schedule 03.09.2018