Как новичок в R, я изучаю множество руководств, в настоящее время работаю над облака слов.
Я страдаю от распространенной болезни кодирования R: текст utf-8 не отображается должным образом.
Пытаюсь создать облако слов на текстовом массиве в .txt файле (на украинском, кодировка utf-8) и у меня облако совершенно не то :(.
Мой код, часть, где я указываю кодировку:
text <- readLines(file.choose())
Encoding(text) <- "UTF-8"
docs <- Corpus(VectorSource(text))
inspect(docs)
Текст отображается в консоли как положено (на украинском, со всеми спецсимволами).
Однако, когда я создаю матрицу, а затем кадр данных, вывод имеет неправильную кодировку:
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)
Что я вижу в консоли:
> head(d, 10)
word freq
РЅР РЅР 1856
СЃС СЃС 1668
СЂР СЂР 1576
РЅС РЅС 1162
РІР РІР 1119
РґР РґР 1112
РјР РјР 994
РѕР РѕР 857
РєС РєС 809
РёС РёС 788
Я пытался изменить локаль и некоторые другие вещи, которые я нашел на StackOverFlow, но, похоже, ничего не работает.
В чем может быть проблема? Что я не вижу/не получаю?
Спасибо!