В настоящее время мы используем text2vec для обработки большого набора данных в AWS EC2 (один экземпляр), текстовые данные в будущем будут все больше и больше, мы можем попробовать использовать архитектуру RHadoop (MapReduce) и не знаем, может ли быть совместимость между text2vec и RHadoop(MapReduce).
Совместимость между text2vec и RHadoop
Ответы (1)
Короткий ответ: да. Если вы действительно хотите, с RHadoop можно заставить что угодно работать. Но я почти уверен, что усилия будут значительными, и, вероятно, вы не будете удовлетворены результатами.
Возвращаясь к реальной проблеме. Стоит попробовать text2vec версии 0.5 (которая вышла на прошлой неделе) - она потребляет еще меньше оперативной памяти, чем раньше. Также вы можете легко обрабатывать данные фрагментами и параллельно. Проверьте, например, эту виньетку.
Другое дело, что для базовых задач вроде классификации обычно не нужны все данные в оперативной памяти. Вы можете проверить, например, другой мой пакет - FTRL для подбора логистической регрессии (со штрафом L1/L2/elasticnet ) с SGD постепенно.
Было бы здорово получить от вас отчет на github о проблеме с памятью (которая на самом деле исходит из пакета Matrix
).
Методы и ансамбли PS-деревьев обычно не подходят для разреженных многомерных данных.
create_dtm
? - person Dmitriy Selivanov   schedule 13.08.2017