Я работаю с StreamSets в дистрибутиве Cloudera, пытаясь получить некоторые данные с этого веб-сайта http://files.data.gouv.fr/sirene/
Я столкнулся с некоторыми проблемами при выборе параметров как HTTP-клиента, так и места назначения Hadoop FS.
https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg
Я получаю эту ошибку: HTTP_00 - Не удается разобрать запись: java.io.IOException: org.apache.commons.compress.archivers.ArchiveException: Архиватор не найден для подписи потока
Я покажу вам свою конфигурацию.
HTTP-клиент:
Общие
Имя: HTTP-клиент INSEE
Описание: Клиент HTTP SIRENE
При ошибке записи: отправить на ошибку
HTTP
URL ресурса: http://files.data.gouv.fr/sirene/
Заголовки : сирена_ : сирена_
Режим : Потоковое
Действия для каждого статуса
Код HTTP-статуса: 500 | Действие для статуса: Повторить попытку с экспоненциальной задержкой |
Базовый интервал задержки (мс): 1000 | Максимальное количество попыток: 10
HTTP-метод: ПОЛУЧИТЬ
Часовой пояс тела: UTC (UTC)
Запросить кодировку передачи: БУФЕРИРОВАНО
HTTP-сжатие: нет
Время ожидания подключения: 0
Тайм-аут чтения: 0
Тип аутентификации: нет
Используйте OAuth 2
Используй прокси
Максимальный размер пакета (записей): 1000
Время ожидания пакета (мс): 2000
Разбивка на страницы
Режим пагинации: нет
TLS
ИспользоватьTLS
Обработка времени ожидания
Действие по тайм-ауту: Немедленно повторить попытку
Максимальное количество попыток: 10
Формат данных
Формат даты: с разделителями
Формат сжатия: Архив
Шаблон имени файла в сжатом каталоге: *.csv
Тип формата разделителя: Пользовательский
Строка заголовка: с линией заголовка
Максимальная длина записи (символы): 1024
Разрешить дополнительные столбцы
Символ-разделитель: точка с запятой
Экранирующий символ : Другое \
Персонаж цитаты: Другой"
Тип корневого поля: список-карта
Строки для пропуска: 0
Разобрать NULL
Кодировка: UTF-8
Игнорировать управляющие символы
Назначение Hadoop FS:
Общие
Имя: Хадуп ФС 1
Описание: Запись в HDFS
Библиотека сцены: CDH 5.7.6
Производить события
Обязательные поля
Предварительные условия
При ошибке записи: отправить на ошибку
Выходные файлы
Тип файла: Весь файл
Префикс файлов
Каталог в шапке
Шаблон каталога: /user/pap/StreamSets/sirene/
Часовой пояс данных: UTC (UTC)
Основа времени: ${время:сейчас()}
Использовать атрибут рулона
Подтвердить разрешения HDFS: ВКЛ.
Пропустить восстановление файлов: ВКЛ.
Поздние записи
Ограничение времени поздней записи (сек): ${1 * HOURS}
Поздняя обработка записи: отправить сообщение об ошибке
Формат данных
Формат данных: весь файл
Выражение имени файла: ${record:value('/fileInfo/filename')}
Выражение разрешений: 777
Файл существует: перезаписать
Включить контрольную сумму в события
... так что я делаю неправильно? :(