Как поэтапно перенести данные HDFS с помощью инструмента DistCp в Alibaba

Я пытаюсь перенести данные HDFS с помощью инструмента DistCp в Alibaba E-Mapreduce. Я понимаю, как выполнить полную миграцию данных.

Команда:

hadoop distcp -pbugpcax -m 1000 -bandwidth 30 hdfs://clusterIP:8020 /user/hive/warehouse /user/hive/warehouse

Какие параметры мне нужно добавить для достижения инкрементной синхронизации в приведенном выше коде?


person Ranjith Udayakumar    schedule 30.12.2018    source источник


Ответы (1)


Чтобы выполнить инкрементную синхронизацию данных, вам нужно будет добавить флаги -update и -delete, которые должны позаботиться о синхронизации.

hadoop distcp -pbugpcax -m 1000 -bandwidth 30  -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse

Немного больше информации об обоих параметрах:

-update проверяет контрольную сумму и размер исходного и целевого файлов. Если сравниваемые размеры файлов различаются, исходный файл обновляет данные целевого кластера. Если во время синхронизации старого и нового кластеров происходит запись данных, параметр -update можно использовать для добавочной синхронизации данных.

-delete, если данные в старом кластере больше не существуют, данные в новом кластере будут удалены.

Надеюсь, это поможет!

person Deepak Kamat    schedule 30.12.2018