Огромный текстовый файл для чтения в R

Итак, у меня есть 30-гигабайтный текстовый файл, который нужно прочитать в R, он содержит два столбца и около 2 миллиардов строк целых чисел! Я не хочу загружать все за один раз, достаточно больших кусков.

Я пробовал использовать read.table с такими аргументами, как nrow = 10000000 и skip = "stupidly_large_number"

но я получаю следующую ошибку, когда я далеко захожу в файл

Error in readLines(file, skip):
    cannot allocate vector of length 1800000000

Пожалуйста, помогите мне получить данные и заранее спасибо!


person David    schedule 18.10.2013    source источник


Ответы (1)


мне кажется, что вам может понадобиться сначала разбить текстовый файл на управляемые куски, прежде чем пытаться их обработать. Команда разделения unix должна помочь, но я не знаю, находитесь ли вы на платформе, на которой существует эта команда.

person stonecrusher    schedule 18.10.2013
comment
будет ли это похоже на то, что я мог бы сделать на ОС Windows? - person David; 19.10.2013
comment
На самом деле просто установите cygdrive и используйте команду split, ура! - person David; 19.10.2013