Hadoop Streaming и несколько шагов редуктора без сопоставления между каждым шагом

Я устраняю неполадки, как сортировать данные несколько раз без необходимости каждый раз возвращаться к картографу.

Я хочу настроить: маппер 1 --> редуктор 1 ---> редуктор 2 ---> редуктор 3

Я хочу сделать вывод редуктора 1 (ключ, данные), а затем перейти прямо к редуктору 2... возможно ли это?

При устранении неполадок я узнал, что вы можете сцеплять задания, но для этого требуется сопоставитель для каждого шага?

Всякий раз, когда я пытаюсь запустить без маппера, это заканчивается ошибкой. Кажется, что запуск картографа для каждого шага был бы пустой тратой времени/ресурсов, если бы я мог просто выводить его по мере необходимости из редуктора 1.

Мысли?


person user1179295    schedule 11.09.2012    source источник


Ответы (1)


Короче говоря, если вы используете Java, вам нужны ChainReducer и ChainMapper. С помощью этих классов вы можете добавлять произвольное количество редюсеров или картографов в цепочку в любом порядке.

В книге «Hadoop в действии» эта процедура описана в главе 5.

person vpap    schedule 26.09.2012