Вопросы по теме 'spark-avro'
NoClassDefFoundError при использовании avro в spark-shell
я продолжаю получать
java.lang.NoClassDefFoundError: org/apache/avro/mapred/AvroWrapper
при вызове show() для объекта DataFrame. Я пытаюсь сделать это через оболочку (spark-shell --master yarn). Я вижу, что оболочка распознает схему...
2022 просмотров
schedule
20.09.2023
Как написать файл avro с помощью Spark?
У меня есть массив [Byte], который представляет схему avro. Я пытаюсь записать это в Hdfs как файл avro со искрой. Это код:
val values = messages.map(row => (null,AvroUtils.decode(row._2,topic)))
.saveAsHadoopFile(
outputPath,...
1013 просмотров
schedule
07.02.2023
Генерация схемы Avro в HDFS
У меня есть сценарий, в котором у меня есть некоторый набор файлов avro в HDFS. И мне нужно сгенерировать файлы схемы Avro для этих файлов данных AVRO в HDFS. Я пытался исследовать с помощью Spark (...
417 просмотров
schedule
25.07.2023
Проблемы преобразования Avro Kafka между scala и Python
В нашем проекте есть код scala и python, и нам нужно отправлять / использовать сообщения в кодировке avro в kafka.
Я отправляю сообщения avro-кодирования в kafka с помощью python и scala. У меня есть производитель в коде scala, который отправляет...
440 просмотров
schedule
16.07.2022
Чтение сообщений Avro из Kafka с использованием структурированной потоковой передачи в Spark 2.1
Я следил за сообщением @Ralph Gonzalez об этом поток чтения сообщений Avro от Kafka с использованием структурированной потоковой передачи в Spark 2.1, но я получаю следующую ошибку.
org.apache.avro.AvroRuntimeException: Malformed data. Length is...
1340 просмотров
schedule
21.05.2022
Преобразование org.apache.avro.generic.GenericRecord в org.apache.spark.sql.Row
У меня есть список org.apache.avro.generic.GenericRecord , avro schema используя это, нам нужно создать dataframe с помощью SQLContext API, для создания dataframe нужно RDD из org.apache.spark.sql.Row и avro schema . Предпосылкой для...
4701 просмотров
schedule
23.06.2023
Как сопоставить один столбец с другими столбцами в файле avro?
Я использую Spark 2.1.1 и Scala 2.11.8.
Этот вопрос является продолжением одного из моих предыдущих вопросов:
Как идентифицировать нулевые поля в CSV-файле?
Изменение заключается в том, что вместо чтения данных из файла CSV я теперь читаю...
161 просмотров
schedule
13.03.2023
Spark sql saveAsTable создает режим добавления таблицы, если новый столбец добавляется в схему avro
Я использую Spark sql DataSet для записи данных в куст. Он отлично работает, если схема такая же, но если я изменю схему avro, добавив новый столбец между ними, она покажет ошибку (схема предоставляется из реестра схем)
Error running job...
2512 просмотров
schedule
11.10.2022
Перенесите данные из HDFS/S3 в локальную ФС и загрузите в Java.
У меня есть задание Spark, работающее в кластере EMr, которое записывает DataFrame в HDFS (который затем преобразуется s3-dist-cp в S3 ). Размер данных небольшой (2 ГБ при сохранении как parquet ). Эти данные в S3 затем копируются в локальную...
51 просмотров
schedule
21.10.2022
Влияет ли размер файлов деталей на производительность Spark SQL?
Я пытаюсь запросить hdfs, в котором много файлов деталей (avro). Недавно мы внесли изменение, чтобы уменьшить параллелизм, и, таким образом, размер файлов деталей увеличился, размер каждого из этих файлов деталей находится в диапазоне от 750 МБ до 2...
153 просмотров
schedule
23.03.2023
Как установить логический тип в схеме spark-avro 2.4?
Мы читаем информацию о временных метках из файлов avro в нашем приложении. Я сейчас тестирую обновление от Spark 2.3.1 до Spark 2.4, которое включает недавно встроенную интеграцию spark-avro. Однако я не могу понять, как сообщить схеме avro, что я...
1018 просмотров
schedule
26.05.2022
Как использовать пакет spark-avro для чтения файла avro из spark-shell?
Я пытаюсь использовать пакет spark-avro , как описано в Apache Avro Data Руководство по источникам .
Когда я отправляю следующую команду:
val df = spark.read.format("avro").load("~/foo.avro")
Я получаю сообщение об ошибке:...
3152 просмотров
schedule
25.07.2022
Проблемы с чтением файлов avro в блокноте Jupyter с помощью pyspark
Я пытаюсь прочитать файл avro в записной книжке Jupyter с помощью pyspark. Когда я читаю файл, я получаю сообщение об ошибке.
Я загрузил spark-avro_2.11: 4.0.0.jar, я не уверен, где в моем коде я должен вставлять пакет avro. Любые предложения...
565 просмотров
schedule
19.02.2023
Spark on Cluster: чтение. Перечисление большого количества небольших файлов avro занимает слишком много времени.
Я знаю, что эта проблема чтения большого количества небольших файлов в HDFS всегда была проблемой и широко обсуждалась, но терпите меня. Большинство проблем с stackoverflow, связанных с этим типом проблем, связаны с чтением большого количества файлов...
772 просмотров
schedule
15.08.2023
Как читать закодированные данные Avro Binary (Base64) в Spark Scala
Я пытаюсь прочитать файл avro, который закодирован в двоичном формате (Base64), и быстро сжатый кот Hadoop в файле avro выглядит так:
Objavro.schema?
{"type":"record","name":"ConnectDefault","namespace":"xyz.connect.avro","fields":...
1117 просмотров
schedule
02.08.2022
Десериализовать Avro Spark
Я отправляю поток данных в Azure EventHub с помощью следующего кода, использующего Microsoft.Hadoop.Avro .. этот код запускается каждые 5 секунд и просто вставляет те же два сериализованных элемента Avro ????????:
var strSchema =...
1143 просмотров
schedule
08.06.2022
Как прочитать все столбцы из Avro, когда в новых разделах больше столбцов, чем в старых?
У меня есть данные в формате Avro, разделенные по дате и времени, и я получаю новые данные каждый час. Новые разделы могут содержать больше столбцов, чем старые. Когда я прочитал его с помощью Spark 2.4.3, я получил DataFrame со схемой первого...
143 просмотров
schedule
19.07.2022
Spark Avro выдает исключение при записи файла: NoSuchMethodError
Любая попытка записи в файл формата Avro завершается ошибкой из-за трассировки стека ниже.
Мы используем Spark 2.4.3 (с предоставленным пользователем Hadoop), Scala 2.12, и мы загружаем пакет Avro во время выполнения с любой искровой оболочкой:...
984 просмотров
schedule
11.03.2024
Отсутствует пользовательский заголовок Avro при использовании потоковой передачи Spark SQL
Перед отправкой Avro GenericRecord в Kafka заголовок вставляется следующим образом.
ProducerRecord<String, byte[]> record = new ProducerRecord<>(topicName, key, message);
record.headers().add("schema", schema);
Потребление записи....
302 просмотров
schedule
27.07.2023
Pyspark записывает кадр данных в avro, сохраняя последовательность ключевых значений
Я пытаюсь прочитать файл avro с помощью pyspark и отсортировать один из столбцов на основе определенных ключей. Один из столбцов в моем файле avro содержит данные MapType , которые мне нужно отсортировать по ключам. Тестовый avro содержит только...
894 просмотров
schedule
08.10.2022