Вопросы по теме 'spark-avro'

NoClassDefFoundError при использовании avro в spark-shell
я продолжаю получать java.lang.NoClassDefFoundError: org/apache/avro/mapred/AvroWrapper при вызове show() для объекта DataFrame. Я пытаюсь сделать это через оболочку (spark-shell --master yarn). Я вижу, что оболочка распознает схему...
2022 просмотров

Как написать файл avro с помощью Spark?
У меня есть массив [Byte], который представляет схему avro. Я пытаюсь записать это в Hdfs как файл avro со искрой. Это код: val values = messages.map(row => (null,AvroUtils.decode(row._2,topic))) .saveAsHadoopFile( outputPath,...
1013 просмотров
schedule 07.02.2023

Генерация схемы Avro в HDFS
У меня есть сценарий, в котором у меня есть некоторый набор файлов avro в HDFS. И мне нужно сгенерировать файлы схемы Avro для этих файлов данных AVRO в HDFS. Я пытался исследовать с помощью Spark (...
417 просмотров
schedule 25.07.2023

Проблемы преобразования Avro Kafka между scala и Python
В нашем проекте есть код scala и python, и нам нужно отправлять / использовать сообщения в кодировке avro в kafka. Я отправляю сообщения avro-кодирования в kafka с помощью python и scala. У меня есть производитель в коде scala, который отправляет...
440 просмотров
schedule 16.07.2022

Чтение сообщений Avro из Kafka с использованием структурированной потоковой передачи в Spark 2.1
Я следил за сообщением @Ralph Gonzalez об этом поток чтения сообщений Avro от Kafka с использованием структурированной потоковой передачи в Spark 2.1, но я получаю следующую ошибку. org.apache.avro.AvroRuntimeException: Malformed data. Length is...
1340 просмотров

Преобразование org.apache.avro.generic.GenericRecord в org.apache.spark.sql.Row
У меня есть список org.apache.avro.generic.GenericRecord , avro schema используя это, нам нужно создать dataframe с помощью SQLContext API, для создания dataframe нужно RDD из org.apache.spark.sql.Row и avro schema . Предпосылкой для...
4701 просмотров

Как сопоставить один столбец с другими столбцами в файле avro?
Я использую Spark 2.1.1 и Scala 2.11.8. Этот вопрос является продолжением одного из моих предыдущих вопросов: Как идентифицировать нулевые поля в CSV-файле? Изменение заключается в том, что вместо чтения данных из файла CSV я теперь читаю...
161 просмотров
schedule 13.03.2023

Spark sql saveAsTable создает режим добавления таблицы, если новый столбец добавляется в схему avro
Я использую Spark sql DataSet для записи данных в куст. Он отлично работает, если схема такая же, но если я изменю схему avro, добавив новый столбец между ними, она покажет ошибку (схема предоставляется из реестра схем) Error running job...
2512 просмотров
schedule 11.10.2022

Перенесите данные из HDFS/S3 в локальную ФС и загрузите в Java.
У меня есть задание Spark, работающее в кластере EMr, которое записывает DataFrame в HDFS (который затем преобразуется s3-dist-cp в S3 ). Размер данных небольшой (2 ГБ при сохранении как parquet ). Эти данные в S3 затем копируются в локальную...
51 просмотров

Влияет ли размер файлов деталей на производительность Spark SQL?
Я пытаюсь запросить hdfs, в котором много файлов деталей (avro). Недавно мы внесли изменение, чтобы уменьшить параллелизм, и, таким образом, размер файлов деталей увеличился, размер каждого из этих файлов деталей находится в диапазоне от 750 МБ до 2...
153 просмотров

Как установить логический тип в схеме spark-avro 2.4?
Мы читаем информацию о временных метках из файлов avro в нашем приложении. Я сейчас тестирую обновление от Spark 2.3.1 до Spark 2.4, которое включает недавно встроенную интеграцию spark-avro. Однако я не могу понять, как сообщить схеме avro, что я...
1018 просмотров
schedule 26.05.2022

Как использовать пакет spark-avro для чтения файла avro из spark-shell?
Я пытаюсь использовать пакет spark-avro , как описано в Apache Avro Data Руководство по источникам . Когда я отправляю следующую команду: val df = spark.read.format("avro").load("~/foo.avro") Я получаю сообщение об ошибке:...
3152 просмотров

Проблемы с чтением файлов avro в блокноте Jupyter с помощью pyspark
Я пытаюсь прочитать файл avro в записной книжке Jupyter с помощью pyspark. Когда я читаю файл, я получаю сообщение об ошибке. Я загрузил spark-avro_2.11: 4.0.0.jar, я не уверен, где в моем коде я должен вставлять пакет avro. Любые предложения...
565 просмотров
schedule 19.02.2023

Spark on Cluster: чтение. Перечисление большого количества небольших файлов avro занимает слишком много времени.
Я знаю, что эта проблема чтения большого количества небольших файлов в HDFS всегда была проблемой и широко обсуждалась, но терпите меня. Большинство проблем с stackoverflow, связанных с этим типом проблем, связаны с чтением большого количества файлов...
772 просмотров
schedule 15.08.2023

Как читать закодированные данные Avro Binary (Base64) в Spark Scala
Я пытаюсь прочитать файл avro, который закодирован в двоичном формате (Base64), и быстро сжатый кот Hadoop в файле avro выглядит так: Objavro.schema? {"type":"record","name":"ConnectDefault","namespace":"xyz.connect.avro","fields":...
1117 просмотров

Десериализовать Avro Spark
Я отправляю поток данных в Azure EventHub с помощью следующего кода, использующего Microsoft.Hadoop.Avro .. этот код запускается каждые 5 секунд и просто вставляет те же два сериализованных элемента Avro ????????: var strSchema =...
1143 просмотров

Как прочитать все столбцы из Avro, когда в новых разделах больше столбцов, чем в старых?
У меня есть данные в формате Avro, разделенные по дате и времени, и я получаю новые данные каждый час. Новые разделы могут содержать больше столбцов, чем старые. Когда я прочитал его с помощью Spark 2.4.3, я получил DataFrame со схемой первого...
143 просмотров
schedule 19.07.2022

Spark Avro выдает исключение при записи файла: NoSuchMethodError
Любая попытка записи в файл формата Avro завершается ошибкой из-за трассировки стека ниже. Мы используем Spark 2.4.3 (с предоставленным пользователем Hadoop), Scala 2.12, и мы загружаем пакет Avro во время выполнения с любой искровой оболочкой:...
984 просмотров
schedule 11.03.2024

Отсутствует пользовательский заголовок Avro при использовании потоковой передачи Spark SQL
Перед отправкой Avro GenericRecord в Kafka заголовок вставляется следующим образом. ProducerRecord<String, byte[]> record = new ProducerRecord<>(topicName, key, message); record.headers().add("schema", schema); Потребление записи....
302 просмотров

Pyspark записывает кадр данных в avro, сохраняя последовательность ключевых значений
Я пытаюсь прочитать файл avro с помощью pyspark и отсортировать один из столбцов на основе определенных ключей. Один из столбцов в моем файле avro содержит данные MapType , которые мне нужно отсортировать по ключам. Тестовый avro содержит только...
894 просмотров
schedule 08.10.2022