Включение всех токенов в матрицу термин-документ в пакет R tm

Я пытаюсь создать матрицу терминов-документов с помощью функции TermDocumentMatrix пакета tm в R и обнаружил, что некоторые слова не включены.

> library(tm)
> tdm <- TermDocumentMatrix(Corpus(VectorSource("The book is of great importance.")))
> rownames(tdm)
[1] "book"        "great"       "importance." "the" 

Здесь слова is и of были исключены из матрицы. Если корпус включает только удаленные слова, выдается следующее сообщение.

> tdm <- TermDocumentMatrix(Corpus(VectorSource("of is of is")))
Warning message:
In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
> rownames(tdm)
NULL

Сигналы сообщения о том, что есть и из, удаляются до построения матрицы, но я не смог понять, почему это происходит и как я могу включить все токены в корпус.

Любая помощь приветствуется.


person Akira Murakami    schedule 31.01.2014    source источник


Ответы (1)


Используйте управляющий аргумент TermDocumentMatrix

require(tm)
tdm <- TermDocumentMatrix(Corpus(VectorSource("of is of is")), control =  list(stopwords=FALSE, wordLengths=c(0, Inf)))
rownames(tdm)
person Community    schedule 31.01.2014
comment
Я проверил аргумент Stopwords, но не посмотрел на wordLength. Благодарю вас! - person Akira Murakami; 31.01.2014