распределенный запрос hive для объединения данных из локального кластера Hadoop и кластера Hadoop amazon s3

У меня есть определенный объем данных в локальном кластере Hadoop (в моей локальной сети), и у меня есть определенный объем данных в кластере Hadoop S3 в облаке Amazon. в обоих местах мои данные находятся в таблицах кустов.

Я хочу запустить запрос куста из моего локального кластера Hadoop, этот запрос должен объединить данные из таблицы куста моего локального кластера и данные таблицы куста из кластера Hadoop amazon s3. Он должен объединять данные из обоих мест и давать результаты

в мою локальную среду кластера, когда я запускаю запрос из моей локальной оболочки улья.

Можно ли решить эту проблему с помощью Amazon Data Pipeline. Если да, пожалуйста, укажите мне путь.

Спасибо, -Суйодха


person Madhu Mohan Kommu    schedule 10.09.2014    source источник


Ответы (1)


Нет автоматического решения.

Сначала вам нужно экспортировать данные из локального кластера и перенести их в S3 на AWS. Затем вы можете загрузить эти данные в кластер EMR.

Вы можете использовать Data Pipeline для выполнения действия Hive над набором данных, переданным на S3.

Готовые действия в Data Pipeline помогают с копированием S3, настройкой кластера EMR и выполнением действий Hive. Они не помогут с переносом ваших данных из локальной среды в AWS. Если вам нужно автоматизировать это, вам нужно будет написать код, некоторые скрипты и т. д.

person user1452132    schedule 14.09.2014
comment
Это возможно с Attunity CloudBean. Я смотрю в. Я вернусь к вам как можно скорее. Большое спасибо за изучение этого. - person Madhu Mohan Kommu; 01.08.2016