Наборы потоков: SpoolDIR_01 Не удалось обработать файл

Привет, я пытаюсь запустить конвейер для обработки очень большого файла (около 4 миллионов записей). Каждый раз, когда он достигает примерно 270 000, он терпит неудачу, а затем прекращает обработку дальнейших записей и возвращает эту ошибку.

«/FileLocation/FiLeNAME..DAT» в позиции «93167616»: com.streamsets.pipeline.lib.dirspooler.BadSpoolFileException: com.streamsets.pipeline.api.ext.io.OverrunException: Reader превысил предел чтения «131072».

Если кто-то еще сталкивался с подобной проблемой, пожалуйста, помогите. Спасибо

Я проверил строки, где он останавливает конвейер, но там нет ничего очевидного. Пробовал другой файл и все равно не работает.

«/FileLocation/FiLeNAME..DAT» в позиции «93167616»: com.streamsets.pipeline.lib.dirspooler.BadSpoolFileException: com.streamsets.pipeline.api.ext.io.OverrunException: Reader превысил предел чтения «131072».

streamsets

MichelleNZ 24.09.2019 источник

Ответы (2)

arrow_upward
0
arrow_downward

Похоже, вы достигли максимального размера записи. Это ограничение введено для защиты от плохо отформатированных данных, вызывающих ошибки «недостаточно памяти».

Проверьте конфигурацию формата данных и увеличьте максимальную длину записи, максимальную длину объекта, максимальную длину строки и т. д. в зависимости от используемого формата данных.

См. документацию по происхождению каталога. более детально. В частности, обратите внимание, что вам, возможно, придется отредактировать sdc.properties, если анализируемые записи превышают общесистемный предел в 1048576 байт.

metadaddy 25.09.2019

arrow_upward
0
arrow_downward

Недавно я тоже получил это сообщение об ошибке. Когда я сталкиваюсь с такими ограничениями размера в StreamSets, я часто устанавливаю ограничение на что-то смешное:

Затем установите максимальное значение на значение, данное мне в последующем сообщении об ошибке:

Мне очень жаль, что StreamSets затем не может обработать остальную часть файла, когда встречается очень длинная запись. Мне это кажется нелогичным для инструмента, используемого для обработки огромных объемов данных.

QA Collective 25.11.2019

Наборы потоков: SpoolDIR_01 Не удалось обработать файл

Ответы (2)

Вопросы по теме