Файл не помещается в память. Это более 100 ГБ, и я хочу получить доступ к определенным строкам по номеру строки. Я не хочу считать построчно, пока не дойду.
Я прочитал http://docstore.mik.ua/orelly/perl/cookbook/ch08_09.htm
Когда я построил индекс, используя следующие методы, возврат строки работает до определенного момента. Если номер строки очень большой, возвращаемая строка будет такой же. Когда я перехожу к определенной строке в файле, возвращается та же строка. Кажется, это работает для строк с номерами от 1 до 350000 (приблизительно);
# usage: build_index(*DATA_HANDLE, *INDEX_HANDLE)
sub build_index {
my $data_file = shift;
my $index_file = shift;
my $offset = 0;
while (<$data_file>) {
print $index_file pack("N", $offset);
$offset = tell($data_file);
}
}
# usage: line_with_index(*DATA_HANDLE, *INDEX_HANDLE, $LINE_NUMBER)
# returns line or undef if LINE_NUMBER was out of range
sub line_with_index {
my $data_file = shift;
my $index_file = shift;
my $line_number = shift;
my $size; # size of an index entry
my $i_offset; # offset into the index of the entry
my $entry; # index entry
my $d_offset; # offset into the data file
$size = length(pack("N", 0));
$i_offset = $size * ($line_number-1);
seek($index_file, $i_offset, 0) or return;
read($index_file, $entry, $size);
$d_offset = unpack("N", $entry);
seek($data_file, $d_offset, 0);
return scalar(<$data_file>);
}
Я также пытался использовать метод DB_file, но, похоже, для привязки требуется очень много времени. Я также не совсем понимаю, что означает «метод доступа DB_RECNO привязывает массив к файлу, по одной строке на элемент массива». Tie не читает файл в массив правильно?