Несколько входных файлов для каждого типа картографа

Я пытаюсь запустить задание, в котором каждый тип картографа получает другой входной файл. Я знаю, что есть способ сделать это с помощью Java, используя класс MultipleInputs, например:

MultipleInputs.addInputPath(job,new Path(args[0]),TextInputFormat.class,CounterMapper.class);
MultipleInputs.addInputPath(job,new Path(args[1]),TextInputFormat.class,CountertwoMapper.class);

Где CounterMapper.class и CountertwoMapper.class являются соответствующими «типами» картографа.

Я пытаюсь добиться аналогичной функциональности с помощью MrJob для Python или любого другого языка, отличного от Java (пожалуйста, не спросите почему!).

Это изображение похоже на то, что Я хочу добиться.

Любая помощь приветствуется.


person Rohin Gopalakrishnan    schedule 25.09.2017    source источник
comment
Возможно, этот ответ может помочь: входные данные с помощью mrjob   -  person Binary Nerd    schedule 26.09.2017


Ответы (1)


Я нашел способ, с помощью которого разные преобразователи могут быть связаны с входным путем пения, это не совсем отвечает на ваш вопрос, но надеюсь, что поможет вам. По ссылке ниже

Использование нескольких входных данных преобразователя в одном потоковом задании в Hadoop?< /а>

person Siddhartha Roy    schedule 27.09.2017