Наша команда пытается создать ETL в Redshift, который будет нашим хранилищем данных для некоторых отчетов. Мы используем Microsoft SQL Server и разбили нашу базу данных на 40+ источников данных. Мы ищем способ передать данные из всех этих идентичных источников данных в 1 базу данных Redshift.
Глядя на AWS Glue, кажется, что этого добиться невозможно. Поскольку они открывают сценарий задания для редактирования разработчиками, мне было интересно, есть ли у кого-нибудь еще опыт перебора нескольких баз данных и переноса одной и той же таблицы в единое хранилище данных. Мы пытаемся уберечь себя от необходимости создавать задание для каждой базы данных ... Если только мы не сможем программно перебрать и создать несколько заданий для каждой базы данных.
Мы также рассмотрели DMS, которая полезна для преобразования схемы и текущих данных в красное смещение, но не похоже, что это сработает и для проблемы с несколькими секционированными источниками данных.
updating with new data
. Использование Redshift в качестве промежуточной вместо базы данных отчетов медленнее, чем использование другой базы данных для работы с каждой строкой, или, по крайней мере, стоит намного больше для той же производительности. Вы можете выполнить ETL, но это будет стоить вам намного дороже, чем предварительная подготовка данных и использование COPY. - person Panagiotis Kanavos   schedule 18.01.2018