Лучший способ обработки больших наборов данных в R

Мне нужно запустить некоторые регрессионные модели и описания для большого набора данных. У меня есть папка с примерно 500 файлами (обновление: файлы txt), которые я хотел бы объединить, и их общий размер составляет 250 ГБ.

Я знаю, как объединить все файлы из папки, но, хотя я запускаю его на сервере 128RAM, мне постоянно не хватает памяти.

Я ищу любые советы/рекомендации о том, как загружать/объединять эти файлы управляемым способом (если возможно) с помощью R. Я искал такие пакеты, как «ff» и «bigmemory», предложат ли они мне решение?


person research111    schedule 24.12.2015    source источник
comment
не знаю, что вы используете для чтения ваших данных, но read_csv (из readr) и fread (из data.table) обычно быстрее, чем read.csv или read.table   -  person MLavoie    schedule 24.12.2015


Ответы (1)


Я бы предложил пакеты ff и biglm. Последний позволяет вам выполнить регрессию для всего набора данных, хранящегося на диске (используя ff), загружая его меньшие фрагменты в ОЗУ. Используйте read.table.ffdf() для преобразования отдельных файлов txt в файл ff на диске. См. пример в файле справки для chunk.ffdf(), как запустить регрессию с помощью biglm().

person Han de Vries    schedule 24.12.2015