Как объединить небольшие файлы на S3, сгенерированные EMR, с тысячами редукторов

Мое задание cascalog EMR сгенерировало тысячи небольших файлов в корзинах S3. Он генерирует такое же количество файлов, как и количество редукторов, которые я использовал. Сброс всех этих крошечных файлов занимает несколько минут. Интересно, есть ли способ объединить их на S3, чтобы я мог их быстро сбросить?

Спасибо

Кан


person rninja    schedule 06.04.2013    source источник


Ответы (1)


Есть несколько решений этой проблемы — вот то, что я использую:

https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/Consolidator.java

person hiroprotagonist    schedule 24.04.2013