Алгоритмы машинного обучения требуют обучающих и тестовых данных, которые могут иметь несколько ТБ или даже несколько ПБ. Вы хотели бы сохранить их правильно, чтобы быть отказоустойчивыми и легко обрабатываться.
Я дам предложения по хранению в зависимости от типа данных.
Картинки
Изображения можно сохранять в виде необработанных файлов в AWS S3 или в HDFS (Hadoop), если требуется размещение внутри компании. Преимущества
- Более быстрый доступ к данным для целей обработки
- Избыточность
- Отказоустойчивость
- Общий интерфейс для всех файлов
События
Аналогичен изображениям, но хранится в виде файлов в формате Parquet или ORC. Преимущества (в т.ч. от изображений)
- Уменьшенный объем хранилища
- Более быстрые запросы
- "Другой"
Архив
Старые данные, которые устарели, но все еще достаточно хороши для хранения, могут храниться в AWS Glacier или в системах NAS.