Как экспортировать таблицу AWS DynamoDB в S3 Bucket?

У меня есть таблица DynamoDB с 1,5 миллионами записей / 2 ГБ. Как экспортировать это на S3?

Метод конвейера данных AWS для этого работал с небольшой таблицей. Но у меня возникли проблемы с экспортом таблицы 1,5 миллиона записей на мой S3.

В моем первоначальном испытании работа конвейера заняла 1 час и завершилась неудачно с

java.lang.OutOfMemoryError: превышен предел накладных расходов GC

Я увеличил размер кучи namenode, предоставив объект конфигурации hadoop-env экземплярам внутри кластера EMR, выполнив эта ссылка

После увеличения размера кучи моя следующая попытка запуска задания не удалась через 1 час с другой ошибкой, как показано на прилагаемом снимке экрана. Я не уверен, что здесь делать, чтобы полностью это исправить.

Также при проверке графиков AWS Cloudwatch экземпляров в кластере EMR. Центральный узел постоянно загружал ЦП на 100%.

Типы экземпляров кластера EMR (главный и основной узел) были m3.2xlarge.

Afnas 29.08.2020 источник

comment

Это может быть маловероятно, но работает ли это с более новыми типами экземпляров, такими как m5. М3 унаследованы - Chris Williams 31.08.2020

comment

вы можете определить таблицу кустов с помощью соединителя Dynamodb emr и запустить задание Spark, которое импортирует данные из Dynamodb и экспортирует их в s3 - Abdelrahman Maharek 02.09.2020

Ответы (1)

arrow_upward
2
arrow_downward

Проблема заключалась в том, что задачи карты работали неэффективно. Основной узел загружал ЦП на 100%. Я обновил типы экземпляров кластера до одного из доступных вычислений серии C, и экспорт работал без проблем.

Afnas 07.09.2020

Как экспортировать таблицу AWS DynamoDB в S3 Bucket?

Ответы (1)

Вопросы по теме