Я пытаюсь создать две матрицы терминов документов следующим образом:
title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))
Первый имеет 75 тыс. строк, а второй - 25 тыс. строк. Поскольку я создал их, использование моей памяти почти достигло 7 ГБ.
Я хотел бы ускорить работу с этими матрицами более эффективным способом...
Я рассмотрел две возможности, но я не уверен, как реализовать любую из них:
- Преобразование DocumentTermMatrix в data.table
- Используйте пакет
ff
, чтобы сохранить их какffdf
Может ли кто-нибудь предоставить какие-либо рекомендации или примеры того, как я могу ускорить работу с большой DocumentTermMatrix?
В конечном счете, я хотел бы иметь возможность поддерживать более 3 млн строк (в настоящее время я использую только подмножество из 100 тыс.).
naiveBayes()
иpredict()
. - person user1477388   schedule 10.07.2014naiveBayes()
иpredict()
? - person user1477388   schedule 10.07.2014naiveBayes()
принимает data.frame, поэтому он также будет совместим с data.table. То же самое должно быть дляpredict()
при использовании в результате. Я не знаю, наследуется лиff
от data.frame или нет. - person MrFlick   schedule 10.07.2014title_dict <- c(findFreqTerms(title_dtm_train, 5))
слишком низко. Я установил его выше, и это, похоже, увеличило производительность (как памяти, так и модели). Мне все еще нужно поддерживать набор данных, в несколько раз превышающий 100 тыс., Поэтому я все еще не уверен, как это сделать... - person user1477388   schedule 11.07.2014