Как создать RDD из входного каталога, содержащего текстовые файлы?

Я работаю с набором данных из 20 групп новостей. По сути, у меня есть папка и n текстовых файлов. Файлы в папке относятся к теме, в которой указана папка. У меня 20 таких папок. Как мне загрузить все эти данные в Spark и сделать из них RDD, чтобы я мог применять к ним преобразования машинного обучения и действия? (Например: как наивный байес). Я ищу способы создать RDD. Не поможет с применением алгоритмов.


person Prasana Ramesh    schedule 29.04.2015    source источник


Ответы (1)


Вы можете использовать SparkConext.wholeTextFiles(...). Он читает каталог и создает RDD для всех файлов в этом каталоге.

person Sumit    schedule 30.04.2015