Я пытаюсь загрузить огромные данные, состоящие из 225 ГБ (количество файлов ~ 1,75 000), с сервера SFTP и копировать данные в HDFS.
Для реализации описанного выше сценария мы использовали 2 процессора.
- GetSFTP (для получения файлов с SFTP-сервера)
Настроенный процессор -> искать рекурсивно = true; используйте Natural Ordering = true; Размер пакета удаленного опроса = 5000; одновременные задачи = 3
2.PutHDFS (отправка данных в HDFS)
Настроенный процессор -> одновременные задачи = 3; Стратегия разрешения конфликтов = заменить; Ресурсы конфигурации Hadoop; Каталог
Но через некоторое время копирование данных останавливается, и их размер не обновляется в HDFS. Когда я устанавливаю размер пакета удаленного опроса в настройках GetSFTP на 5000 -> общий объем данных, отправленных в HDFS, составляет 6,4 ГБ, при значении 20000 -> общий объем данных, отправленных в HDFS, составляет 25 ГБ
Но я не могу понять, что делаю не так.