Облако слов R: украинская кодировка

Как новичок в R, я изучаю множество руководств, в настоящее время работаю над облака слов.

Я страдаю от распространенной болезни кодирования R: текст utf-8 не отображается должным образом.

Пытаюсь создать облако слов на текстовом массиве в .txt файле (на украинском, кодировка utf-8) и у меня облако совершенно не то :(.

Мой код, часть, где я указываю кодировку:

text <- readLines(file.choose())
Encoding(text)  <- "UTF-8"
docs <- Corpus(VectorSource(text))
inspect(docs)

Текст отображается в консоли как положено (на украинском, со всеми спецсимволами).

Однако, когда я создаю матрицу, а затем кадр данных, вывод имеет неправильную кодировку:

 dtm <- TermDocumentMatrix(docs)
 m <- as.matrix(dtm)
 v <- sort(rowSums(m),decreasing=TRUE)
 d <- data.frame(word = names(v),freq=v)
 head(d, 10)

Что я вижу в консоли:

> head(d, 10)
    word freq
РЅР  РЅР 1856
СЃС  СЃС 1668
СЂР  СЂР 1576
РЅС  РЅС 1162
РІР  РІР 1119
РґР  РґР 1112
РјР  РјР  994
РѕР  РѕР  857
РєС  РєС  809
РёС  РёС  788

Я пытался изменить локаль и некоторые другие вещи, которые я нашел на StackOverFlow, но, похоже, ничего не работает.

В чем может быть проблема? Что я не вижу/не получаю?

Спасибо!

r encoding utf-8 non-english

10tons 20.07.2017 источник

comment

Не могли бы вы предоставить подмножество вашего txt файла? - F. Privé 20.07.2017

comment

@F.Privé, конечно. См. здесь. - 10tons 24.07.2017

comment

Похоже, проблема связана с Windows: stackoverflow.com/a/24922159/6103040 - F. Privé 24.07.2017

Облако слов R: украинская кодировка

Вопросы по теме