как справиться с перекосом данных в редукторе?

У меня есть простая работа mapreduce, где для некоторых ключей количество значений исчисляется миллионами. В результате чего редуктор не может закончить. Я прошел по этой ссылке, Hadoop обрабатывает перекос данных в редукторе, но не смог следуйте, если есть какая-либо передовая практика, доступная для таких сценариев. Может ли кто-нибудь предложить лучший способ справиться с такими случаями в работе mapreduce?


person KBR    schedule 05.02.2016    source источник
comment
Является ли ваша операция ассоциативной? если это так, вы можете использовать объединитель.   -  person kalyan chakravarthy    schedule 28.03.2018