Streamsets Pipeline для загрузки файлов в HDFS с вводящим в заблуждение исключением File not Found Exception

У нас настроена работа Streamsets. Который, хотя он работает успешно, выдает следующую ошибку:

«НЕИЗВЕСТНО com.streamsets.pipeline.api.StageException: SPOOLDIR_35 — сбой запуска каталога буфера. Причина java.nio.file.NoSuchFileException:»

Ошибка «файл не найден», но на самом деле файл обрабатывается успешно, но ошибка все равно возникает. Это происходит промежуточно и не для всех обрабатываемых файлов.

Вот некоторая предыстория работы:

  • Конвейер считывает файлы с пограничного узла Linux и загружает их в HDFS.
  • Ошибка возникает на этапе чтения
  • Мы работали с одним и тем же конвейером почти 2 года и не видели этой проблемы до последнего месяца или около того. Ничего в нашем процессе не изменилось в последнее время. Периодические ошибки, кажется, совпадают с последним обновлением StreamSets.
  • Через этот конвейер мы обрабатываем около 7 файлов каждые 2 часа, то есть примерно 84 файла в день, а прерывистая ошибка возникает при обработке 1-3 файлов в день. Все файлы по-прежнему обрабатываются в HDFS.

Любая идея, почему это происходит?


person Carol    schedule 21.08.2018    source источник
comment
Могу я спросить, почему это помечено apache-spark? Кроме того, вы используете более одного потока в источнике каталога?   -  person Jeff Evans    schedule 17.09.2018


Ответы (1)


Похоже, вы нажимаете SDC-9740. Пожалуйста, посмотрите/проголосуйте/комментируйте эту проблему, особенно если вы можете предоставить какие-либо дополнительные сведения, которые могут помочь нам сузить круг причин. Это P1, так что это должно быть исправлено в следующем релизе.

person metadaddy    schedule 21.08.2018
comment
Мы увеличили период буферизации, и количество случаев этой ошибки уменьшилось. Я предполагаю, что это как-то связано с периодом буферизации. - person Carol; 05.09.2018