Я храню большой текстовый файл (10 ГБ, N строк и 4 столбца) в файле HDF5, используя пакет h5py. В первую очередь потому, что я не хочу использовать свою оперативную память.
Я хотел бы отсортировать элементы в файле на основе второго столбца. Любые предложения о том, как это сделать?
Я также слышал, что это можно сделать кусками, помогите, пожалуйста?
Спасибо!
h5py
используйте Pytables (он жеtables
). Он имеет оптимизированные алгоритмы сортировки и поиска. Оба могут создавать и работать с файлом HDF5. (Очевидно, что вам сначала нужно будет прочитать текстовые данные в файл HDF5. Есть и другие сообщения SO, которые показывают, как это сделать.) - person kcw78   schedule 23.07.2020