У меня есть очень большой набор данных, хранящийся в Hadoop (кластер YARN), на котором я хочу обучить классификатор машины опорных векторов. Функции извлекаются из каждой точки данных из набора данных и сохраняются в LibSVM. Spark MLLib может читать эти файлы, используя MLUTils.LoadLibSVMFile (контекст JavaSparkContext, каталог String). Каждый файл имеет одну строку с двойными символами, заканчивающимися символом новой строки. Линия представляет значения признаков.
Я хочу объединить все эти файлы в JavaRDD. Могу ли я использовать .textFile("../*") с каким-либо оператором .join или .union? Я не понимаю, как это сделать...
Не могли бы вы быть так добры помочь? Я думаю, что больше людей хотели бы знать, как сделать это эффективно.