Алгоритмы машинного обучения требуют обучающих и тестовых данных, которые могут иметь несколько ТБ или даже несколько ПБ. Вы хотели бы сохранить их правильно, чтобы быть отказоустойчивыми и легко обрабатываться.

Я дам предложения по хранению в зависимости от типа данных.

Картинки

Изображения можно сохранять в виде необработанных файлов в AWS S3 или в HDFS (Hadoop), если требуется размещение внутри компании. Преимущества

  • Более быстрый доступ к данным для целей обработки
  • Избыточность
  • Отказоустойчивость
  • Общий интерфейс для всех файлов

События

Аналогичен изображениям, но хранится в виде файлов в формате Parquet или ORC. Преимущества (в т.ч. от изображений)

  • Уменьшенный объем хранилища
  • Более быстрые запросы
  • "Другой"

Архив

Старые данные, которые устарели, но все еще достаточно хороши для хранения, могут храниться в AWS Glacier или в системах NAS.