AWS — это сервис, который делает много вещей, связанных с ETL. Одна его часть — это задания, которые позволяют вам запускать ваш код. Здесь я покажу вам, как запустить простейшую работу, написанную на Python.

Цель

Я стремлюсь загрузить только один файл архива Википедии с FTP прямо на S3. Размер файла составляет около 65 ГБ и будет передаваться на лету скриптом Python.

Инфраструктура

Нам нужно ведро, клейкое задание, роль IAM с некоторыми разрешениями, скрипт python, который будет выполняться заданием, и параметр SSM, указывающий на наше ведро.

Скрипт Python

Код — это просто абстракция примеров, которые я делал до. Основная идея заключается в передаче данных между FTP и S3 без их локального хранения.

Исход

Как долго это займет? 49 минут.