Вопросы по теме 'spark-csv'

Запишите один файл CSV с помощью spark-csv
Я использую https://github.com/databricks/spark-csv , я пытаюсь написать единственный CSV, но не в состоянии, он создает папку. Нужна функция Scala, которая будет принимать такие параметры, как путь и имя файла, и записывать этот файл CSV.
299540 просмотров
schedule 09.12.2021

Получение NullPointerException с использованием spark-csv с DataFrames
Просматривая spark-csv README , можно найти пример кода Java, подобный этому импортировать org.apache.spark.sql.SQLContext; импортировать org.apache.spark.sql.types.*; SQLContext sqlContext = new SQLContext(sc); StructType customSchema = new...
4185 просмотров
schedule 25.12.2023

Сохранение файла CSV с помощью partitionBy в Spark
Я пытаюсь сохранить фрейм данных в виде CSV-файла, разделенного столбцом. val schema = new StructType( Array( StructField("ID",IntegerType,true), StructField("State",StringType,true),...
2036 просмотров

Как разобрать csv, который использует ^ A (т.е. \ 001) в качестве разделителя с помощью spark-csv?
Ужасно новичок в Spark, Hive, Big Data, Scala и всем остальном. Я пытаюсь написать простую функцию, которая принимает sqlContext, загружает файл csv из s3 и возвращает DataFrame. Проблема в том, что этот конкретный csv использует символ ^ A (т.е. \...
30514 просмотров
schedule 02.11.2022

PySpark в блокноте Jupyter с использованием пакета spark-csv
Я использую искру 1.6.0 в локальном режиме. Я создал профиль ipython pyspark, поэтому ядро ​​pyspark запустится в блокноте jupyter. Все это работает корректно. Я хочу использовать этот пакет spark-csv внутри блокнота Jupyter. Я пытался...
162 просмотров
schedule 03.06.2022

Spark Stand Alone — последний этап saveAsTextFile занимает много часов, используя очень мало ресурсов для записи файлов деталей CSV.
Мы запускаем Spark в автономном режиме с 3 узлами на «большом» блоке EC2 объемом 240 ГБ, чтобы объединить три CSV-файла, считанные в DataFrames, в JavaRDD в выходные файлы CSV-частей на S3 с использованием s3a. Из пользовательского интерфейса Spark...
442 просмотров
schedule 09.06.2023

Спарк-схема из класса case с корректной обнуляемостью
Для пользовательского метода transformSchema Estimator мне нужно иметь возможность сравнивать схему фрейма входных данных со схемой, определенной в классе case. Обычно это может быть выполнено следующим образом: класс case , как описано ниже....
6313 просмотров

NumberFormatException, когда я пытаюсь создать паркетный файл с настраиваемой схемой и типами BigDecimal
Мне нужно создать файл паркета из файлов csv, используя настроенный файл схемы json, например этот: {"type" : "struct","fields" : [ {"name" : "tenor_bank","type" : "string","nullable" : false}, {"name":"tenor_frtb", "type":"string",...
449 просмотров
schedule 01.05.2023

Ошибка при чтении очень больших файлов с пакетом spark csv
Мы пытаемся прочитать файл размером 3 ГБ, который имеет несколько символов новой строки в одном столбце, используя синтаксический анализатор spark-csv и univocity 1.5.0, но файл разбивается на несколько столбцов в некоторой строке на основе символа...
481 просмотров

Как spark читает файлы текстового формата
У меня есть набор данных в S3 в текстовом формате (.gz), и я использую spark.read.csv для чтения файла в spark. Это около 100 ГБ данных, но он содержит 150 столбцов. Я использую только 5 столбцов (поэтому я уменьшаю объем данных) и выбираю только...
108 просмотров

Программно сгенерируйте схему И данные для фрейма данных в Apache Spark.
Я хотел бы динамически генерировать кадр данных, содержащий запись заголовка для отчета, поэтому создавая кадр данных из значения строки ниже: val headerDescs : String = "Name,Age,Location" val headerSchema =...
8656 просмотров

Разделитель заголовков Databricks Spark CSV
Наш CSV-файл имеет формат ^ A в качестве разделителя столбцов и ^ B в качестве разделителя строк / разделителей записей. Поэтому я использую библиотеку databricks spark csv для создания фрейма данных следующим образом: val dataFrame =...
3000 просмотров
schedule 03.10.2022

Имена файлов Spark CSV 2.1
я пытаюсь сохранить DataFrame в CSV, используя новую опцию spark 2.1 csv df.select(myColumns: _*).write .mode(SaveMode.Overwrite) .option("header", "true") .option("codec",...
1520 просмотров
schedule 05.02.2023

Spark не читает столбцы с нулевыми значениями в первой строке
Ниже приведено содержимое моего CSV-файла: A1,B1,C1 A2,B2,C2,D1 A3,B3,C3,D2,E1 A4,B4,C4,D3 A5,B5,C5,,E2 Итак, есть 5 столбцов, но только 3 значения в первой строке. Я прочитал его с помощью следующей команды: val csvDF : DataFrame =...
2749 просмотров

Как заставить inferSchema для CSV рассматривать целые числа как даты (с опцией dateFormat)?
Я использую Spark 2.2.0 Я читаю файл csv следующим образом: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd")...
6467 просмотров

Как добавить разделитель специальных символов в вывод csv фрейма данных spark и кодировку UTF-8-BOM
Я должен записать выходные данные фрейма данных искры в CSV-файл с разделителем "|^|". Я пытаюсь сделать так. df.write.format("csv").option("delimiter", "\\|\\^\\|") Но ошибка ниже java.lang.IllegalArgumentException: неподдерживаемый...
2323 просмотров

В чем разница между sqlContext.read.load и sqlContext.read.text?
Я только пытаюсь прочитать текстовый файл в RDD pyspark и замечаю огромные различия между sqlContext.read.load и sqlContext.read.text . s3_single_file_inpath='s3a://bucket-name/file_name' indata = sqlContext.read.load(s3_single_file_inpath,...
7827 просмотров

Запишите Spark DF в файл csv с типом данных array‹string›
Я пытаюсь написать искровой DF с массивом строк в файл csv, я следовал инструкциям, приведенным в сайт здесь Но мой столбец также содержит нули. Как я могу обрабатывать нули и записывать DF в файл
1456 просмотров
schedule 03.06.2024

Прочитайте CSV с последним столбцом как массив значений (и значения находятся внутри круглых скобок и разделены запятой) в Spark
У меня есть файл CSV, в котором последний столбец находится внутри круглых скобок, а значения разделены запятыми. Количество значений в последнем столбце является переменным. Когда я читаю их как Dataframe с некоторыми именами столбцов следующим...
2415 просмотров

SparkDataFrame.dtypes не работает, если столбец имеет специальные символы. Как обойти и прочитать csv и inferschema
Вывод схемы кадра данных Spark выдает ошибку, если в файле csv есть столбец со специальными символами. Тестовый образец foo.csv id,комментарий 1, #Привет 2, Привет spark = SparkSession.builder.appName("footest").getOrCreate() df=...
48 просмотров
schedule 27.04.2024