Я использую следующий код для преобразования фрейма данных в аккуратный фрейм данных:
replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT|https"
unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- tweets %>%
filter(!str_detect(text, "^RT")) %>%
mutate(text = str_replace_all(text, replace_reg, "")) %>%
unnest_tokens(word, text, token = "regex", pattern = unnest_reg) %>%
filter(!word %in% custom_stop_words2$word,
str_detect(word, "[a-zäöüß]"))
Однако это создает аккуратный фрейм данных, в котором немецкие символы üäöß удаляются из вновь созданного столбца слов, например, «wählen» становится двумя словами: «w» и «hlen», а специальный символ удаляется.
Я пытаюсь получить аккуратный фрейм данных немецких слов для анализа текста и частоты терминов.
Может ли кто-нибудь указать мне в правильном направлении, как подойти к этой проблеме?
A-Za-z
на[:alpha:]
. Ну,A-Za-z\\d
можно заменить на[:alnum:]
. Примечание: это не всегда работает, поэтому проверьте на своей стороне. - person Wiktor Stribiżew   schedule 25.07.2017cleanNLP
, вы можете использоватьinit_tokenizers(locale = "German)
- person s.brunel   schedule 25.07.2017