Я хотел бы знать, почему компаратор группировки используется во вторичном виде mapreduce.
Согласно окончательному руководству пример вторичной сортировки
Мы хотим, чтобы порядок сортировки ключей был по году (по возрастанию), а затем по температуре (по убыванию):
1900 35°C
1900 34°C
1900 34°C
...
1901 36°C
1901 35°C
Установив разделитель для разделения по части года ключа, мы можем гарантировать, что записи за один и тот же год попадут в один и тот же редьюсер. Однако этого все еще недостаточно для достижения нашей цели. Разделитель гарантирует, что только один редюсер получит все записи за год; это не меняет того факта, что редюсер группируется по ключу внутри раздела.
Поскольку мы уже написали свой собственный разделитель, который позаботится о выходных ключах карты, идущих к конкретному редюсеру, так зачем нам группировать его.
заранее спасибо