Я буду сканировать несколько миллионов URL-адресов из EC2 в течение нескольких месяцев и думаю о том, где мне хранить эти данные. Моя конечная цель - проанализировать его, но анализ может быть не немедленным (хотя я хотел бы просканировать его сейчас по другим причинам), и я, возможно, захочу в конечном итоге передать копию данных для хранения на локальном устройстве, которое у меня есть. . По моим оценкам, объем данных составит около 5 ТБ.
Мой вопрос: я рассматриваю возможность использования Glacier для этого с идеей, что я буду запускать многопоточный сканер, который локально сохраняет просканированные страницы (на EB), а затем использует отдельный поток, который объединяет, сжимает и передает эти данные в Glacier. Я знаю, что скорость передачи данных в Glacier не всегда хороша, но, поскольку в этом процессе нет онлайн-элемента, это кажется возможным (особенно, поскольку я всегда могу увеличить размер своего локального тома EBS на случай, если я сканирую быстрее, чем могу). хранить в леднике).
Есть ли недостаток в моем подходе или кто-нибудь может предложить более экономичный и надежный способ сделать это?
Спасибо!