Я пытаюсь прочитать случайную строку из большого файла, хранящегося в общедоступном облачном хранилище.
Насколько я понимаю, я не могу сделать это с помощью gsutil и изучил FUSE, но не уверен, что он подойдет для моего варианта использования: https://cloud.google.com/storage/docs/gcs-fuse
Есть много файлов, каждый размером ~ 50 ГБ, всего несколько терабайт. Если возможно, я хотел бы избежать загрузки этих файлов. Все они представляют собой простые текстовые файлы — вы можете увидеть их здесь: https://console.cloud.google.com/storage/browser/genomics-public-data/linkage-disescence/1000-genomes-phase.-3/ldCutoff0.4_window1MB
Было бы здорово, если бы я мог просто получить дескриптор файловой системы с помощью FUSE, чтобы я мог помещать данные непосредственно в другие сценарии, но я не против переписать их для чтения построчно, если это необходимо. Главное — ни при каких обстоятельствах интерфейс не должен загружать весь файл.