может кто-нибудь предложить лучший способ анализа журнала с использованием потоковой передачи искры

Я совершенно новичок в больших данных, последние несколько недель я пытаюсь создать приложение для анализа журналов.

Я прочитал много статей и обнаружил, что потоковая передача Kafka + spark — самая надежная конфигурация.

Теперь я могу обрабатывать данные, отправленные моим простым производителем kafka java, для запуска потоковой передачи.

Может кто-нибудь предложить несколько вещей, таких как 1) как я могу читать журналы сервера в реальном времени и передавать их брокеру kafka. 2) какие-либо фреймворки доступны для передачи данных из журналов в Kafka? 3) любые другие предложения??

Спасибо, Чоудари.


person chowdary pothula    schedule 29.05.2016    source источник


Ответы (1)


Есть много способов собрать логи и отправить их в Kafka. Если вы хотите отправлять файлы журналов в виде потока событий, я бы порекомендовал просмотреть Logstash/Filebeats — просто настройте ввод в качестве файлового ввода и вывода в Kafka.

Вы также можете передавать данные в Kafka с помощью log4j KafkaAppender или передавать журналы в Kafka с помощью многих уже доступных инструментов CLI.

Если вам нужно гарантировать последовательность, обратите внимание на конфигурацию разделов и логику выбора разделов. Например, приложение log4j будет распределять сообщения по всем разделам. Поскольку Kafka гарантирует последовательность только для каждого раздела, ваши задания потоковой передачи Spark могут начать обработку событий не по порядку.

person YaRiK    schedule 29.05.2016