Совместимость между text2vec и RHadoop

В настоящее время мы используем text2vec для обработки большого набора данных в AWS EC2 (один экземпляр), текстовые данные в будущем будут все больше и больше, мы можем попробовать использовать архитектуру RHadoop (MapReduce) и не знаем, может ли быть совместимость между text2vec и RHadoop(MapReduce).

text2vec

Zheng Lu 13.08.2017 источник

comment

вопрос совершенно не ясен. Какие задачи вы выполняете с text2vec? Чего вы хотите достичь с помощью RHadoop? - Dmitriy Selivanov 13.08.2017

comment

Я использую text2vec + xgboost для классификации текста, модель может работать очень хорошо, когда она находится в пределах 10 миллионов строк текстовых данных. В противном случае память будет переполнена, когда она будет работать с одним экземпляром EC2 (память 32G). поэтому мне интересно, можно ли это решить, объединив RHdoop. Если у вас есть более лучший совет, пожалуйста, дайте мне знать. Большое спасибо! - Zheng Lu 13.08.2017

comment

переполнение памяти на каком этапе? create_dtm? - Dmitriy Selivanov 13.08.2017

comment

да, переполнение памяти в create DTM dtm_t1 ‹- create_dtm(it_train, vectorizer) Ошибка в asMethod(object): ошибка Cholmod «недостаточно памяти» в файле ../Core/cholmod_memory.c, строка 147 Ошибка в coerce_matrix(dtm, type): невозможно принудительно ввести данные в dgCMatrix - Zheng Lu 14.08.2017

Ответы (1)

arrow_upward
0
arrow_downward

Короткий ответ: да. Если вы действительно хотите, с RHadoop можно заставить что угодно работать. Но я почти уверен, что усилия будут значительными, и, вероятно, вы не будете удовлетворены результатами.

Возвращаясь к реальной проблеме. Стоит попробовать text2vec версии 0.5 (которая вышла на прошлой неделе) - она потребляет еще меньше оперативной памяти, чем раньше. Также вы можете легко обрабатывать данные фрагментами и параллельно. Проверьте, например, эту виньетку.

Другое дело, что для базовых задач вроде классификации обычно не нужны все данные в оперативной памяти. Вы можете проверить, например, другой мой пакет - FTRL для подбора логистической регрессии (со штрафом L1/L2/elasticnet ) с SGD постепенно.

Было бы здорово получить от вас отчет на github о проблеме с памятью (которая на самом деле исходит из пакета Matrix).

Методы и ансамбли PS-деревьев обычно не подходят для разреженных многомерных данных.

Dmitriy Selivanov 15.08.2017

comment

Большое спасибо. Эти советы бесценны для меня, может быть, я не буду пробовать Rhadoop, я попробую еще пару способов, как вы можете сказать. - Zheng Lu; 15.08.2017

Совместимость между text2vec и RHadoop

Ответы (1)

Вопросы по теме