как справиться с перекосом данных в редукторе?

У меня есть простая работа mapreduce, где для некоторых ключей количество значений исчисляется миллионами. В результате чего редуктор не может закончить. Я прошел по этой ссылке, Hadoop обрабатывает перекос данных в редукторе, но не смог следуйте, если есть какая-либо передовая практика, доступная для таких сценариев. Может ли кто-нибудь предложить лучший способ справиться с такими случаями в работе mapreduce?

KBR 05.02.2016 источник

comment

Является ли ваша операция ассоциативной? если это так, вы можете использовать объединитель. - kalyan chakravarthy 28.03.2018

как справиться с перекосом данных в редукторе?

Вопросы по теме