У меня есть таблица DynamoDB с 1,5 миллионами записей / 2 ГБ. Как экспортировать это на S3?
Метод конвейера данных AWS для этого работал с небольшой таблицей. Но у меня возникли проблемы с экспортом таблицы 1,5 миллиона записей на мой S3.
В моем первоначальном испытании работа конвейера заняла 1 час и завершилась неудачно с
java.lang.OutOfMemoryError: превышен предел накладных расходов GC
Я увеличил размер кучи namenode, предоставив объект конфигурации hadoop-env экземплярам внутри кластера EMR, выполнив эта ссылка
После увеличения размера кучи моя следующая попытка запуска задания не удалась через 1 час с другой ошибкой, как показано на прилагаемом снимке экрана. Я не уверен, что здесь делать, чтобы полностью это исправить.
Также при проверке графиков AWS Cloudwatch экземпляров в кластере EMR. Центральный узел постоянно загружал ЦП на 100%.
Типы экземпляров кластера EMR (главный и основной узел) были m3.2xlarge.