У меня есть простая работа mapreduce, где для некоторых ключей количество значений исчисляется миллионами. В результате чего редуктор не может закончить. Я прошел по этой ссылке, Hadoop обрабатывает перекос данных в редукторе, но не смог следуйте, если есть какая-либо передовая практика, доступная для таких сценариев. Может ли кто-нибудь предложить лучший способ справиться с такими случаями в работе mapreduce?
как справиться с перекосом данных в редукторе?
comment
Является ли ваша операция ассоциативной? если это так, вы можете использовать объединитель.
- person kalyan chakravarthy   schedule 28.03.2018