Как отфильтровать все короткие строки (2 и меньше символов) в корпусе?

Учитывая простую строку:

t <- "hello world ww ff a wr gj dkjffdkn kuku"

VCorpus(VectorSource(t))

Я хочу отфильтровать все подстроки длиной 2 и меньше. Как это сделать с помощью пакетов qdap или tm? Я знаю, что могу использовать regex для этого, но есть ли функция, которая это делает?


person SteveS    schedule 10.06.2019    source источник


Ответы (1)


С пакетом qdapRegex вы можете:

rm_nchar_words(t, "1,2")

[1] "hello world dkjffdkn kuku"
person tmfmnk    schedule 10.06.2019