Я хотел бы использовать AWS Data Pipeline для запуска экземпляра EC2, а затем запустить скрипт Python, который хранится в S3.
Является ли это возможным? Я хотел бы сделать один шаг ETL, используя скрипт Python.
Это лучший способ?
Я хотел бы использовать AWS Data Pipeline для запуска экземпляра EC2, а затем запустить скрипт Python, который хранится в S3.
Является ли это возможным? Я хотел бы сделать один шаг ETL, используя скрипт Python.
Это лучший способ?
Да, это возможно и относительно просто с помощью Shell Command Activity.
Я полагаю, что из деталей, которые вы предоставили до сих пор, это кажется лучшим способом - поскольку DataPipeline предоставляет экземпляр EC2 для вас по требованию и затем отключает его.
http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-shellcommandactivity.html
Существует также руководство, которому вы можете следовать, чтобы привыкнуть к ShellCommndActivity конвейера данных. http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-gettingstartedshell.html
да, вы можете напрямую загружать и создавать резервные копии ваших данных в s3
http://awssolution.blogspot.in/2015/10/how-to-backup-share-and-organize-data.html