Вопросы по теме 'spark-csv'
Запишите один файл CSV с помощью spark-csv
Я использую https://github.com/databricks/spark-csv , я пытаюсь написать единственный CSV, но не в состоянии, он создает папку.
Нужна функция Scala, которая будет принимать такие параметры, как путь и имя файла, и записывать этот файл CSV.
299540 просмотров
schedule
09.12.2021
Получение NullPointerException с использованием spark-csv с DataFrames
Просматривая spark-csv README , можно найти пример кода Java, подобный этому импортировать org.apache.spark.sql.SQLContext; импортировать org.apache.spark.sql.types.*;
SQLContext sqlContext = new SQLContext(sc);
StructType customSchema = new...
4185 просмотров
schedule
25.12.2023
Сохранение файла CSV с помощью partitionBy в Spark
Я пытаюсь сохранить фрейм данных в виде CSV-файла, разделенного столбцом.
val schema = new StructType(
Array(
StructField("ID",IntegerType,true),
StructField("State",StringType,true),...
2036 просмотров
schedule
20.02.2023
Как разобрать csv, который использует ^ A (т.е. \ 001) в качестве разделителя с помощью spark-csv?
Ужасно новичок в Spark, Hive, Big Data, Scala и всем остальном. Я пытаюсь написать простую функцию, которая принимает sqlContext, загружает файл csv из s3 и возвращает DataFrame. Проблема в том, что этот конкретный csv использует символ ^ A (т.е. \...
30514 просмотров
schedule
02.11.2022
PySpark в блокноте Jupyter с использованием пакета spark-csv
Я использую искру 1.6.0 в локальном режиме. Я создал профиль ipython pyspark, поэтому ядро pyspark запустится в блокноте jupyter. Все это работает корректно.
Я хочу использовать этот пакет spark-csv внутри блокнота Jupyter. Я пытался...
162 просмотров
schedule
03.06.2022
Spark Stand Alone — последний этап saveAsTextFile занимает много часов, используя очень мало ресурсов для записи файлов деталей CSV.
Мы запускаем Spark в автономном режиме с 3 узлами на «большом» блоке EC2 объемом 240 ГБ, чтобы объединить три CSV-файла, считанные в DataFrames, в JavaRDD в выходные файлы CSV-частей на S3 с использованием s3a.
Из пользовательского интерфейса Spark...
442 просмотров
schedule
09.06.2023
Спарк-схема из класса case с корректной обнуляемостью
Для пользовательского метода transformSchema Estimator мне нужно иметь возможность сравнивать схему фрейма входных данных со схемой, определенной в классе case. Обычно это может быть выполнено следующим образом: класс case , как описано ниже....
6313 просмотров
schedule
04.10.2023
NumberFormatException, когда я пытаюсь создать паркетный файл с настраиваемой схемой и типами BigDecimal
Мне нужно создать файл паркета из файлов csv, используя настроенный файл схемы json, например этот:
{"type" : "struct","fields" : [ {"name" : "tenor_bank","type" : "string","nullable" : false}, {"name":"tenor_frtb", "type":"string",...
449 просмотров
schedule
01.05.2023
Ошибка при чтении очень больших файлов с пакетом spark csv
Мы пытаемся прочитать файл размером 3 ГБ, который имеет несколько символов новой строки в одном столбце, используя синтаксический анализатор spark-csv и univocity 1.5.0, но файл разбивается на несколько столбцов в некоторой строке на основе символа...
481 просмотров
schedule
30.09.2023
Как spark читает файлы текстового формата
У меня есть набор данных в S3 в текстовом формате (.gz), и я использую spark.read.csv для чтения файла в spark.
Это около 100 ГБ данных, но он содержит 150 столбцов. Я использую только 5 столбцов (поэтому я уменьшаю объем данных) и выбираю только...
108 просмотров
schedule
28.04.2023
Программно сгенерируйте схему И данные для фрейма данных в Apache Spark.
Я хотел бы динамически генерировать кадр данных, содержащий запись заголовка для отчета, поэтому создавая кадр данных из значения строки ниже:
val headerDescs : String = "Name,Age,Location"
val headerSchema =...
8656 просмотров
schedule
31.03.2023
Разделитель заголовков Databricks Spark CSV
Наш CSV-файл имеет формат ^ A в качестве разделителя столбцов и ^ B в качестве разделителя строк / разделителей записей. Поэтому я использую библиотеку databricks spark csv для создания фрейма данных следующим образом:
val dataFrame =...
3000 просмотров
schedule
03.10.2022
Имена файлов Spark CSV 2.1
я пытаюсь сохранить DataFrame в CSV, используя новую опцию spark 2.1 csv
df.select(myColumns: _*).write
.mode(SaveMode.Overwrite)
.option("header", "true")
.option("codec",...
1520 просмотров
schedule
05.02.2023
Spark не читает столбцы с нулевыми значениями в первой строке
Ниже приведено содержимое моего CSV-файла:
A1,B1,C1
A2,B2,C2,D1
A3,B3,C3,D2,E1
A4,B4,C4,D3
A5,B5,C5,,E2
Итак, есть 5 столбцов, но только 3 значения в первой строке.
Я прочитал его с помощью следующей команды:
val csvDF : DataFrame =...
2749 просмотров
schedule
28.12.2022
Как заставить inferSchema для CSV рассматривать целые числа как даты (с опцией dateFormat)?
Я использую Spark 2.2.0
Я читаю файл csv следующим образом:
val dataFrame = spark.read.option("inferSchema", "true")
.option("header", true)
.option("dateFormat", "yyyyMMdd")...
6467 просмотров
schedule
25.02.2023
Как добавить разделитель специальных символов в вывод csv фрейма данных spark и кодировку UTF-8-BOM
Я должен записать выходные данные фрейма данных искры в CSV-файл с разделителем "|^|". Я пытаюсь сделать так.
df.write.format("csv").option("delimiter", "\\|\\^\\|")
Но ошибка ниже
java.lang.IllegalArgumentException: неподдерживаемый...
2323 просмотров
schedule
12.06.2022
В чем разница между sqlContext.read.load и sqlContext.read.text?
Я только пытаюсь прочитать текстовый файл в RDD pyspark и замечаю огромные различия между sqlContext.read.load и sqlContext.read.text .
s3_single_file_inpath='s3a://bucket-name/file_name'
indata = sqlContext.read.load(s3_single_file_inpath,...
7827 просмотров
schedule
23.11.2022
Запишите Spark DF в файл csv с типом данных array‹string›
Я пытаюсь написать искровой DF с массивом строк в файл csv, я следовал инструкциям, приведенным в сайт здесь
Но мой столбец также содержит нули. Как я могу обрабатывать нули и записывать DF в файл
1456 просмотров
schedule
03.06.2024
Прочитайте CSV с последним столбцом как массив значений (и значения находятся внутри круглых скобок и разделены запятой) в Spark
У меня есть файл CSV, в котором последний столбец находится внутри круглых скобок, а значения разделены запятыми. Количество значений в последнем столбце является переменным. Когда я читаю их как Dataframe с некоторыми именами столбцов следующим...
2415 просмотров
schedule
15.11.2023
SparkDataFrame.dtypes не работает, если столбец имеет специальные символы. Как обойти и прочитать csv и inferschema
Вывод схемы кадра данных Spark выдает ошибку, если в файле csv есть столбец со специальными символами.
Тестовый образец foo.csv
id,комментарий 1, #Привет 2, Привет
spark = SparkSession.builder.appName("footest").getOrCreate()
df=...
48 просмотров
schedule
27.04.2024