Я запускаю довольно большое задание MRJob (1 755 638 ключей), и ключи записываются в редукторы в отсортированном порядке. Это произойдет, даже если я укажу, что Hadoop должен использовать разделитель хэшей, с:
class SubClass(MRJob):
PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartitioner"
...
Я не понимаю, почему ключи сортируются, когда я не прошу их сортировать.