У меня есть пользовательский доступ к серверу/кластеру hadoop, содержащему данные, которые хранятся исключительно в секционированных таблицах/файлах в улье (avro). Мне было интересно, могу ли я выполнить mapreduce с помощью python mrjob для этих таблиц? До сих пор я тестировал mrjob локально на текстовых файлах, хранящихся на CDH5, и был впечатлен простотой разработки.
После некоторых исследований я обнаружил, что есть библиотека под названием HCatalog, но, насколько я знаю, она недоступна для python (только для Java). К сожалению, у меня не так много времени на изучение Java, и я хотел бы придерживаться Python.
Знаете ли вы какой-либо способ запустить mrjob для данных, хранящихся в улье?
Если это невозможно, есть ли способ передать код mapreduce, написанный на Python, в куст? (Я бы предпочел не загружать файлы python mapreduce в улей)