Почему MRJob сортирует мои ключи?

Я запускаю довольно большое задание MRJob (1 755 638 ключей), и ключи записываются в редукторы в отсортированном порядке. Это произойдет, даже если я укажу, что Hadoop должен использовать разделитель хэшей, с:

class SubClass(MRJob):

    PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartitioner"

...

Я не понимаю, почему ключи сортируются, когда я не прошу их сортировать.

hadoop sorting mrjob

vy32 06.02.2017 источник

Ответы (3)

arrow_upward
2
arrow_downward

HashPartitioner используется по умолчанию, если вы явно не указываете какой-либо разделитель.

Rahul Sharma 07.02.2017

arrow_upward
1
arrow_downward

Ключи не сортируются по умолчанию, но HashPartitioner создаст внешний вид ключей сортировки, если набор данных небольшой. Когда я увеличил размер набора данных с 50M до 10G, ключи перестали сортироваться.

vy32 07.03.2017

comment

Что это за хэш, когда он дает видимость сортировки!?! - Dandelion; 19.12.2018

comment

Не знаю. Возможно, он даже не удосужился сортировать, учитывая, насколько маленьким на самом деле был мой довольно большой MRJob. - vy32; 19.12.2018

arrow_upward
0
arrow_downward

MR сортирует пары ключ/значение по ключу, чтобы гарантировать, что все значения для данного ключа будут переданы редюсеру вместе. На самом деле, Iterable, переданный в метод reduce(), просто читает этот отсортированный список, пока не найдет новый ключ, а затем прекращает итерацию. Вот почему ключи всегда будут отображаться по порядку.

Chris Gerken 07.02.2017

comment

Упоминается ли это где-нибудь в документах? Ваш ответ противоречит @vy32! - Dandelion; 19.12.2018

comment

@Dandelion Сортировка не выполняется разделителем, который определяет, к какому разделу относится каждая пара ключ / значение. Сортировка происходит как часть предварительной обработки редуктора, так что ключи/значения группируются вместе для совместной передачи редуктору. - Chris Gerken; 19.12.2018

Почему MRJob сортирует мои ключи?

Ответы (3)

Вопросы по теме