Я работаю с набором данных из 20 групп новостей. По сути, у меня есть папка и n текстовых файлов. Файлы в папке относятся к теме, в которой указана папка. У меня 20 таких папок. Как мне загрузить все эти данные в Spark и сделать из них RDD, чтобы я мог применять к ним преобразования машинного обучения и действия? (Например: как наивный байес). Я ищу способы создать RDD. Не поможет с применением алгоритмов.
Как создать RDD из входного каталога, содержащего текстовые файлы?
Ответы (1)
Вы можете использовать SparkConext.wholeTextFiles(...). Он читает каталог и создает RDD для всех файлов в этом каталоге.
person
Sumit
schedule
30.04.2015