У меня есть файл xlsx
с 11 столбцами и 15 млн строк и размером 198 МБ. С пандами нужно вечность, чтобы читать и работать. Прочитав ответы Stackoverflow, я переключился на dask
и modin
. Однако при использовании dask
я получаю следующую ошибку:
df = dd.read_csv('15Lacs.csv', encoding= 'unicode_escape')
c error :out of memory
.
Когда я использую modin['ray']
, я получаю следующую ошибку:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 112514: invalid start byte
Есть ли более эффективный способ импортировать большие файлы xlsx
или csv
в python на среднем оборудовании?