У меня есть довольно большой набор данных (~ 20 ГБ), хранящийся на диске как Pandas/PyTables HDFStore, и я хочу запускать на нем случайные леса и повышать деревья. Попытка сделать это в моей локальной системе занимает целую вечность, поэтому я подумал о том, чтобы отдать ее на ферму искровому кластеру, к которому у меня есть доступ, и вместо этого использовать подпрограммы MLLib.
Хотя мне удалось загрузить кадр данных pandas в качестве кадра данных искры, я немного не понимаю, как использовать это в подпрограммах MLLib. Я не слишком знаком с MLLib, и кажется, что он принимает только типы данных LabeledPoint.
Я был бы признателен за любые идеи/указатели/код, которые объясняют, как использовать кадры данных (pandas или spark) в качестве входных данных для алгоритмов MLLib - прямо или косвенно, путем преобразования в поддерживаемые типы.
Спасибо.