Как создать RDD из входного каталога, содержащего текстовые файлы?

Я работаю с набором данных из 20 групп новостей. По сути, у меня есть папка и n текстовых файлов. Файлы в папке относятся к теме, в которой указана папка. У меня 20 таких папок. Как мне загрузить все эти данные в Spark и сделать из них RDD, чтобы я мог применять к ним преобразования машинного обучения и действия? (Например: как наивный байес). Я ищу способы создать RDD. Не поможет с применением алгоритмов.

Prasana Ramesh 29.04.2015 источник

Ответы (1)

arrow_upward
3
arrow_downward

Вы можете использовать SparkConext.wholeTextFiles(...). Он читает каталог и создает RDD для всех файлов в этом каталоге.

Sumit 30.04.2015

Как создать RDD из входного каталога, содержащего текстовые файлы?

Ответы (1)

Вопросы по теме