Облако слов R: украинская кодировка

Как новичок в R, я изучаю множество руководств, в настоящее время работаю над облака слов.

Я страдаю от распространенной болезни кодирования R: текст utf-8 не отображается должным образом.

Пытаюсь создать облако слов на текстовом массиве в .txt файле (на украинском, кодировка utf-8) и у меня облако совершенно не то :(.

Мой код, часть, где я указываю кодировку:

text <- readLines(file.choose())
Encoding(text)  <- "UTF-8"
docs <- Corpus(VectorSource(text))
inspect(docs)

Текст отображается в консоли как положено (на украинском, со всеми спецсимволами).

Однако, когда я создаю матрицу, а затем кадр данных, вывод имеет неправильную кодировку:

 dtm <- TermDocumentMatrix(docs)
 m <- as.matrix(dtm)
 v <- sort(rowSums(m),decreasing=TRUE)
 d <- data.frame(word = names(v),freq=v)
 head(d, 10)

Что я вижу в консоли:

> head(d, 10)
    word freq
РЅР  РЅР 1856
СЃС  СЃС 1668
СЂР  СЂР 1576
РЅС  РЅС 1162
РІР  РІР 1119
РґР  РґР 1112
РјР  РјР  994
РѕР  РѕР  857
РєС  РєС  809
РёС  РёС  788

Я пытался изменить локаль и некоторые другие вещи, которые я нашел на StackOverFlow, но, похоже, ничего не работает.

В чем может быть проблема? Что я не вижу/не получаю?

Спасибо!


person 10tons    schedule 20.07.2017    source источник
comment
Не могли бы вы предоставить подмножество вашего txt файла?   -  person F. Privé    schedule 20.07.2017
comment
@F.Privé, конечно. См. здесь.   -  person 10tons    schedule 24.07.2017
comment
Похоже, проблема связана с Windows: stackoverflow.com/a/24922159/6103040   -  person F. Privé    schedule 24.07.2017