Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов

Мое задание cascalog EMR сгенерировало тысячи небольших файлов в корзинах S3. Он генерирует такое же количество файлов, как и количество редукторов, которые я использовал. Сброс всех этих крошечных файлов занимает несколько минут. Интересно, есть ли способ объединить их на S3, чтобы я мог их быстро сбросить?

Спасибо

Кан

rninja 06.04.2013 источник

Ответы (1)

arrow_upward
0
arrow_downward

Есть несколько решений этой проблемы — вот то, что я использую:

https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/Consolidator.java

hiroprotagonist 24.04.2013

Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов

Ответы (1)

Вопросы по теме