Наборы потоков: SpoolDIR_01 Не удалось обработать файл

Привет, я пытаюсь запустить конвейер для обработки очень большого файла (около 4 миллионов записей). Каждый раз, когда он достигает примерно 270 000, он терпит неудачу, а затем прекращает обработку дальнейших записей и возвращает эту ошибку.

«/FileLocation/FiLeNAME..DAT» в позиции «93167616»: com.streamsets.pipeline.lib.dirspooler.BadSpoolFileException: com.streamsets.pipeline.api.ext.io.OverrunException: Reader превысил предел чтения «131072».

Если кто-то еще сталкивался с подобной проблемой, пожалуйста, помогите. Спасибо

Я проверил строки, где он останавливает конвейер, но там нет ничего очевидного. Пробовал другой файл и все равно не работает.

«/FileLocation/FiLeNAME..DAT» в позиции «93167616»: com.streamsets.pipeline.lib.dirspooler.BadSpoolFileException: com.streamsets.pipeline.api.ext.io.OverrunException: Reader превысил предел чтения «131072».


person MichelleNZ    schedule 24.09.2019    source источник


Ответы (2)


Похоже, вы достигли максимального размера записи. Это ограничение введено для защиты от плохо отформатированных данных, вызывающих ошибки «недостаточно памяти».

Проверьте конфигурацию формата данных и увеличьте максимальную длину записи, максимальную длину объекта, максимальную длину строки и т. д. в зависимости от используемого формата данных.

См. документацию по происхождению каталога. более детально. В частности, обратите внимание, что вам, возможно, придется отредактировать sdc.properties, если анализируемые записи превышают общесистемный предел в 1048576 байт.

person metadaddy    schedule 25.09.2019

Недавно я тоже получил это сообщение об ошибке. Когда я сталкиваюсь с такими ограничениями размера в StreamSets, я часто устанавливаю ограничение на что-то смешное:

введите здесь описание изображения

Затем установите максимальное значение на значение, данное мне в последующем сообщении об ошибке:

введите здесь описание изображения

Мне очень жаль, что StreamSets затем не может обработать остальную часть файла, когда встречается очень длинная запись. Мне это кажется нелогичным для инструмента, используемого для обработки огромных объемов данных.

person QA Collective    schedule 25.11.2019