Вопросы по теме 'spark-streaming-kafka'

Потоковая передача Kafka Spark: невозможно читать сообщения
Я интегрирую Kafka и Spark, используя искру. Как продюсер кафки создал тему: bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test Я публикую сообщения в kafka и пытаюсь прочитать их с...
5660 просмотров

Kafka createDirectStream в Spark Streaming
Я пробую пример кода из Spark Streaming + Kafka. Руководство по интеграции (брокер Kafka версии 0.10.0 или выше) . Код может работать без ошибок, но я не могу получить какую-либо запись. Если я запущу kafka-console-consumer.sh --from-beginning, я...
1854 просмотров

java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka/KafkaUtils
Я использую следующий pom.xml для создания своего проекта. Когда я запускаю полученную банку с отправкой искры, она дает следующую ошибку. java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka/KafkaUtils Однако, если я включу...
2017 просмотров

Пакетное выполнение Spark Streaming Kafka Stream
Я новичок в потоковой передаче искр, и у меня есть общий вопрос, связанный с ее использованием. В настоящее время я реализую приложение, которое передает данные из темы Kafka. Является ли распространенным сценарием использование приложения для...
479 просмотров

Потоковая передача Spark из темы kafka с использованием scala
Я новичок в разработке scala / Spark. Я создал простое потоковое приложение из темы Kafka, используя sbt и scala. У меня есть следующий код build.sbt name := "kafka-streaming" version := "1.0" assemblyOption in assembly := (assemblyOption...
950 просмотров

Режим непрерывной обработки Spark не читает все разделы темы kafka
Я экспериментирую с режимом непрерывной обработки Spark в структурированной потоковой передаче, и я читаю тему Kafka с двумя разделами, в то время как приложение Spark имеет только один исполнитель с одним ядром. Приложение простое, оно просто...
400 просмотров

Как получить агрегированные данные за определенный день в потоковой передаче со структурированной структурой искры
У меня есть одна искровая структурированная паровая задача, которая читает потоки из kafka и записывает вывод в HDFS. Моя проблема в том, что мне нужны агрегированные результаты за весь день до определенного времени. Поскольку структурированная...
29 просмотров

Разделение строки сообщения Kafka на строку в структурированной потоковой передаче Spark
Я хочу прочитать сообщение из темы Kafka в моем задании Spark Structured Streaming во фрейме данных. но я получаю все сообщение в одном смещении, поэтому во фрейме данных только это сообщение попадает в одну строку, а не в несколько строк. (в моем...
480 просмотров

Потоковая передача Spark и kafka Отсутствует необходимый раздел конфигурации partition.assignment.strategy, у которого нет значения по умолчанию
Я пытаюсь запустить приложение потоковой передачи искры с Kafka, используя пряжу. Я получаю следующую ошибку трассировки стека: Вызвано: org.apache.kafka.common.config.ConfigException: Отсутствует требуемая конфигурация...
3053 просмотров

Как создать подключение(я) к источнику данных в Spark Streaming для поиска
У меня есть вариант использования, когда мы транслируем события, и для каждого события мне нужно выполнить поиск. Поиски находятся в Redis, и мне интересно, как лучше всего создавать соединения. Искровая потоковая передача будет запускать 40...
467 просмотров

pyspark структурированная потоковая запись на паркет в пакетном режиме
Я делаю некоторые преобразования в структурированном потоковом фрейме данных Spark. Я сохраняю преобразованный фрейм данных в виде файлов паркета в hdfs. Теперь я хочу, чтобы запись в hdfs происходила партиями, а не сначала преобразовывала весь...
3230 просмотров

Невозможно прочитать данные из тем кафки с помощью потоковой передачи искры
Я пытаюсь прочитать данные из темы kafka, используя потоковую передачу искры. Я могу создать сообщение в теме kafka, но при чтении данных из темы с использованием потоковой передачи искры я получаю сообщение об ошибке, как показано ниже: ERROR...
128 просмотров

Как хранить данные в HDFS с помощью потоковой передачи искры
Я хочу хранить потоковые данные в hdfs. Это искровой потоковый код, собирающий данные из темы kafka. Я пробовал это lines.saveAsHadoopFiles("hdfs://192.168.10.31:9000/user/spark/mystream/", "abc") это мой код, дайте мне знать, чтобы написать код...
191 просмотров

Spark – предикат Kudu с нажатием вниз
Я использую куду и потоковую передачу искры для панели инструментов в реальном времени, моя проблема в том, что, когда я присоединяюсь к пакету из потоковой передачи искры с таблицей куду, она не выполняет для нее предикативное нажатие и занимает 2-3...
266 просмотров

Правильный способ хранения смещений в Kafka при использовании Spark и Elastic Search
Я провел много исследований по этому поводу, но до сих пор не могу найти что-то подходящее. Куда бы я ни пошел, я вижу, что самый простой способ - это вызвать saveToEs() , а затем после этого зафиксировать смещения. У меня вопрос: а что, если...
53 просмотров

Извлечение вложенных значений JSON в Spark Streaming Java
Как мне анализировать json-сообщения от Kafka в Spark Streaming? Я конвертирую JavaRDD в набор данных и оттуда извлекаю значения. Обнаружен успех в извлечении значений, однако я не могу извлечь вложенные значения json, такие как «host.name» и...
128 просмотров

Разница в выводе потоковой передачи Spark и Spark для одного и того же задания
Я делаю некоторые POC с потоковой передачей Spark и Spark для своего проекта. Итак, все, что я делаю, это читаю имя файла из Topic. Скачивание файла из src/main/sresource и запуск обычного частотного приложения WordCount. @KafkaListener(topics...
55 просмотров

Отладка конвейера Kafka, прочитав одну и ту же тему с двумя разными структурированными потоками искры
У меня есть тема Kafka, которая занимается потоковой передачей данных в моем производстве. Я хочу использовать тот же поток данных для цели отладки и не влиять на смещения для существующего конвейера. Я помню, как в более ранних версиях для этой...
51 просмотров

Маскируйте данные, поступающие из потока Kafka
Я использую искровую структурированную потоковую передачу для потоковой передачи данных из kafka, что дает мне фрейм данных со схемой ниже Column Type key binary value binary topic string partition int offset long...
116 просмотров

org.apache.spark.sql.AnalysisException: запросы с потоковыми источниками должны выполняться с помощью writeStream.start () kafka
Я хочу передать файл машинного обучения Python, спрогнозировать результат, затем прикрепить его к моему фрейму данных и затем сохранить. Я получаю следующую ошибку: - Сведения об исключении Exception in thread "main"...
230 просмотров