Совместимость между text2vec и RHadoop

В настоящее время мы используем text2vec для обработки большого набора данных в AWS EC2 (один экземпляр), текстовые данные в будущем будут все больше и больше, мы можем попробовать использовать архитектуру RHadoop (MapReduce) и не знаем, может ли быть совместимость между text2vec и RHadoop(MapReduce).


person Zheng Lu    schedule 13.08.2017    source источник
comment
вопрос совершенно не ясен. Какие задачи вы выполняете с text2vec? Чего вы хотите достичь с помощью RHadoop?   -  person Dmitriy Selivanov    schedule 13.08.2017
comment
Я использую text2vec + xgboost для классификации текста, модель может работать очень хорошо, когда она находится в пределах 10 миллионов строк текстовых данных. В противном случае память будет переполнена, когда она будет работать с одним экземпляром EC2 (память 32G). поэтому мне интересно, можно ли это решить, объединив RHdoop. Если у вас есть более лучший совет, пожалуйста, дайте мне знать. Большое спасибо!   -  person Zheng Lu    schedule 13.08.2017
comment
переполнение памяти на каком этапе? create_dtm?   -  person Dmitriy Selivanov    schedule 13.08.2017
comment
да, переполнение памяти в create DTM dtm_t1 ‹- create_dtm(it_train, vectorizer) Ошибка в asMethod(object): ошибка Cholmod «недостаточно памяти» в файле ../Core/cholmod_memory.c, строка 147 Ошибка в coerce_matrix(dtm, type): невозможно принудительно ввести данные в dgCMatrix   -  person Zheng Lu    schedule 14.08.2017


Ответы (1)


Короткий ответ: да. Если вы действительно хотите, с RHadoop можно заставить что угодно работать. Но я почти уверен, что усилия будут значительными, и, вероятно, вы не будете удовлетворены результатами.

Возвращаясь к реальной проблеме. Стоит попробовать text2vec версии 0.5 (которая вышла на прошлой неделе) - она ​​потребляет еще меньше оперативной памяти, чем раньше. Также вы можете легко обрабатывать данные фрагментами и параллельно. Проверьте, например, эту виньетку.

Другое дело, что для базовых задач вроде классификации обычно не нужны все данные в оперативной памяти. Вы можете проверить, например, другой мой пакет - FTRL для подбора логистической регрессии (со штрафом L1/L2/elasticnet ) с SGD постепенно.

Было бы здорово получить от вас отчет на github о проблеме с памятью (которая на самом деле исходит из пакета Matrix).

Методы и ансамбли PS-деревьев обычно не подходят для разреженных многомерных данных.

person Dmitriy Selivanov    schedule 15.08.2017
comment
Большое спасибо. Эти советы бесценны для меня, может быть, я не буду пробовать Rhadoop, я попробую еще пару способов, как вы можете сказать. - person Zheng Lu; 15.08.2017