Как экспортировать таблицу AWS DynamoDB в S3 Bucket?

У меня есть таблица DynamoDB с 1,5 миллионами записей / 2 ГБ. Как экспортировать это на S3?

Метод конвейера данных AWS для этого работал с небольшой таблицей. Но у меня возникли проблемы с экспортом таблицы 1,5 миллиона записей на мой S3.

В моем первоначальном испытании работа конвейера заняла 1 час и завершилась неудачно с

java.lang.OutOfMemoryError: превышен предел накладных расходов GC

Я увеличил размер кучи namenode, предоставив объект конфигурации hadoop-env экземплярам внутри кластера EMR, выполнив эта ссылка

После увеличения размера кучи моя следующая попытка запуска задания не удалась через 1 час с другой ошибкой, как показано на прилагаемом снимке экрана. Я не уверен, что здесь делать, чтобы полностью это исправить.

введите описание изображения здесь  введите описание изображения здесь

Также при проверке графиков AWS Cloudwatch экземпляров в кластере EMR. Центральный узел постоянно загружал ЦП на 100%.

Типы экземпляров кластера EMR (главный и основной узел) были m3.2xlarge.


comment
Это может быть маловероятно, но работает ли это с более новыми типами экземпляров, такими как m5. М3 унаследованы   -  person Chris Williams    schedule 31.08.2020
comment
вы можете определить таблицу кустов с помощью соединителя Dynamodb emr и запустить задание Spark, которое импортирует данные из Dynamodb и экспортирует их в s3   -  person Abdelrahman Maharek    schedule 02.09.2020


Ответы (1)


Проблема заключалась в том, что задачи карты работали неэффективно. Основной узел загружал ЦП на 100%. Я обновил типы экземпляров кластера до одного из доступных вычислений серии C, и экспорт работал без проблем.

person Afnas    schedule 07.09.2020