Скопируйте файлы с SFTP-сервера в HDFS с помощью Nifi

Я пытаюсь загрузить огромные данные, состоящие из 225 ГБ (количество файлов ~ 1,75 000), с сервера SFTP и копировать данные в HDFS.

Для реализации описанного выше сценария мы использовали 2 процессора.

  1. GetSFTP (для получения файлов с SFTP-сервера)

Настроенный процессор -> искать рекурсивно = true; используйте Natural Ordering = true; Размер пакета удаленного опроса = 5000; одновременные задачи = 3

2.PutHDFS (отправка данных в HDFS)

Настроенный процессор -> одновременные задачи = 3; Стратегия разрешения конфликтов = заменить; Ресурсы конфигурации Hadoop; Каталог

Но через некоторое время копирование данных останавливается, и их размер не обновляется в HDFS. Когда я устанавливаю размер пакета удаленного опроса в настройках GetSFTP на 5000 -> общий объем данных, отправленных в HDFS, составляет 6,4 ГБ, при значении 20000 -> общий объем данных, отправленных в HDFS, составляет 25 ГБ

Но я не могу понять, что делаю не так.


person Deepanshu    schedule 09.01.2019    source источник


Ответы (1)


Убедитесь, что у вас есть scheduled GetSFTP processor для запуска на основе Timer Drivern (или) Cron Driven.

Идеальным решением будет использование процессоров ListSFTP + FetchSFTP вместо GetSFTP.

Обратитесь к этому ссылка для настройки / использования процессоров List + Fetch sftp.

person Shu    schedule 09.01.2019
comment
Спасибо @Shu за твой ответ. Мы также использовали (процессоры ListSFTP + FetchSFTP), но ListSFTP занимает более 40 минут только для того, чтобы составить список файлов, поскольку необходимо передать данные 225 ГБ. Итак, что мы можем сделать, чтобы уменьшить время листинга файлов с помощью ListSFTP? - person Deepanshu; 10.01.2019
comment
@Deepanshu попробуйте увеличить количество одновременных задач в списке и получить процессоры .. !! - person Shu; 10.01.2019
comment
В listSFTP, как мы можем увеличить значение параллельных задач becoz в listSFTP, мы не можем редактировать значение параллельных задач listSFTP, а также мы увеличили значение параллельной задачи fetchSFTP до 10. - person Deepanshu; 11.01.2019