Публикации по тегам apache-spark-dataset

Вопросы по теме 'apache-spark-dataset'

Как преобразовать DataFrame в набор данных в Apache Spark на Java?

Я могу очень легко преобразовать DataFrame в набор данных в Scala: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchema но в версии Java я не знаю, как преобразовать...

20386 просмотров

09.02.2023

Почему возникает ошибка «Невозможно найти кодировщик для типа, хранящегося в наборе данных» при кодировании JSON с использованием классов case?

Я написал искровую работу: object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ctx = new...

21362 просмотров

apache-spark scala apache-spark-dataset apache-spark-encoders

11.04.2023

Apache Spark 2.0: java.lang.UnsupportedOperationException: кодировщик для java.time.LocalDate не найден

Я использую Apache Spark 2.0 и создаю case class схему упоминания для DetaSet . Когда я пытаюсь определить пользовательский кодировщик в соответствии с Как сохранить пользовательские объекты в наборе данных? , для java.time.LocalDate возникло...

6549 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset apache-spark-encoders

27.06.2022

Преобразование списка scala в DataFrame или DataSet

Я новичок в Scala. Я пытаюсь преобразовать список scala (который содержит результаты некоторых вычисленных данных в исходном DataFrame) в Dataframe или набор данных. Я не нахожу никакого прямого метода сделать это. Тем не менее, я попробовал...

26443 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset apache-spark-encoders

28.12.2022

Создать набор данных Spark с частями другого набора данных

Я пытаюсь создать новый набор данных, взяв интервалы из другого набора данных, например, рассмотрите набор данных1 как вход и набор данных2 как выход: dataset1 = [1, 2, 3, 4, 5, 6] dataset2 = [1, 2, 2, 3, 3, 4, 4, 5, 5, 6] Мне удалось сделать...

407 просмотров

flatmap apache-spark apache-spark-sql scala apache-spark-dataset

12.11.2022

Как разобрать многострочный json в наборе данных apache spark java

Есть ли способ проанализировать многострочный файл json с помощью набора данных, вот пример кода public static void main(String[] args) { // creating spark session SparkSession spark = SparkSession.builder().appName("Java Spark SQL basic...

4609 просмотров

java json apache-spark hadoop apache-spark-dataset

27.11.2022

Как разбить строки на разные столбцы в Spark DataFrame / DataSet?

Предположим, у меня есть набор данных вроде: Name | Subject | Y1 | Y2 A | math | 1998| 2000 B | | 1996| 1999 | science | 2004| 2005 Я хочу разбить строки этого набора данных так, чтобы столбец Y2 был удален, например:...

981 просмотров

apache-spark apache-spark-dataset spark-dataframe

06.06.2022

Искра проще value_counts

Что-то похожее на Spark — группировка по ключу, затем подсчет по значению позволит мне эмулировать df.series.value_counts() функциональность Pandas в Spark, чтобы: Результирующий объект будет располагаться в порядке убывания, так что...

6134 просмотров

apache-spark apache-spark-sql apache-spark-dataset

08.05.2023

Спарк-схема из класса case с корректной обнуляемостью

Для пользовательского метода transformSchema Estimator мне нужно иметь возможность сравнивать схему фрейма входных данных со схемой, определенной в классе case. Обычно это может быть выполнено следующим образом: класс case , как описано ниже....

6313 просмотров

apache-spark apache-spark-sql apache-spark-ml apache-spark-dataset spark-csv

04.10.2023

Закодируйте иерархию ADT / запечатанных признаков в столбец Spark DataSet

Если я хочу сохранить алгебраический тип данных (ADT) (т. Е. Запечатанную иерархию свойств Scala) в Spark DataSet , какова лучшая стратегия кодирования? Например, если у меня есть ADT, в котором типы листьев хранят разные типы данных: sealed...

2492 просмотров

apache-spark scala apache-spark-dataset apache-spark-encoders

08.09.2022

Spark Dataframes — сокращение по ключу

Допустим, у меня есть подобная структура данных, где ts - это временная метка. case class Record(ts: Long, id: Int, value: Int) Учитывая большое количество этих записей, я хочу получить запись с самой высокой отметкой времени для каждого...

15195 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

02.06.2023

Преимущества производительности DataSet по сравнению с RDD

Прочитав несколько замечательных статей ( это , this и this ) о наборах данных Spark, я заканчиваю с производительностью следующего набора данных преимущества перед RDD: Оптимизация логического и физического плана; Строгая типизация;...

616 просмотров

apache-spark rdd apache-spark-dataset

11.05.2024

Пользовательский разделитель набора данных Spark

Не могли бы вы помочь мне найти Java API для переразбиения sales набора данных на N фрагментов одинакового размера? Под одинаковым размером я подразумеваю равное количество строк. Dataset<Row> sales =...

3447 просмотров

java apache-spark rdd apache-spark-dataset spark-dataframe

20.12.2022

Spark Dataframe/набор данных: общая условная кумулятивная сумма

У меня есть кадр данных, который имеет несколько атрибутов (от C1 до C2), смещение (в днях) и несколько значений (V1, V2). val inputDF= spark.sparkContext.parallelize(Seq((1,2,30, 100, -1),(1,2,30, 100, 0), (1,2,30, 100, 1),(11,21,30, 100,...

939 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset spark-dataframe

15.02.2023

Должен ли я явно использовать методы Dataframe, чтобы воспользоваться преимуществами оптимизации набора данных?

Чтобы воспользоваться преимуществами оптимизации Dataset , нужно ли явно использовать методы Dataframe's (например, df.select(col("name"), col("age") и т. д.) или вызывать любые методы набора данных — даже RDD- похожие методы (например,...

99 просмотров

java apache-spark apache-spark-sql apache-spark-dataset

12.03.2023

Как пройти / перебрать набор данных в Spark Java?

Я пытаюсь пройти через набор данных, чтобы выполнить некоторые вычисления сходства строк, такие как Яро Винклер или Косинусное сходство. Я конвертирую свой набор данных в список строк, а затем перехожу с помощью оператора for, который не является...

27552 просмотров

java apache-spark iterator apache-spark-dataset apache-spark-2.0

07.04.2022

createDataFrame() выдает исключение при передаче javaRDD, содержащего столбец ArrayType в SPARK 2.1.

Я хочу создать Dataframe (он же Dataset‹Row› в Spark 2.1) с помощью createDataframe(), все работает хорошо, когда я передаю ему параметр List‹Row›, но он выдает исключение, когда я передаю JavaRDD‹Row›. [Код] SparkSession ss =...

741 просмотров

java apache-spark apache-spark-dataset apache-spark-2.0 spark-dataframe

02.07.2023

Набор данных Spark с подзапросом в условии «Где»

Я пытаюсь воссоздать запрос SQL в Spark SQL. Обычно я бы вставил в таблицу вот так: INSERT INTO Table_B ( primary_key, value_1, value_2 ) SELECT DISTINCT primary_key, value_1, value_2 FROM Table_A WHERE NOT EXISTS...

2061 просмотров

apache-spark apache-spark-dataset

05.06.2023

Как разбить столбец с несколькими значениями на отдельные строки с помощью типизированного набора данных?

Я столкнулся с проблемой, как разбить столбец с несколькими значениями, то есть List[String] , на отдельные строки. Исходный набор данных имеет следующие типы: Dataset[(Integer, String, Double, scala.List[String])]...

3867 просмотров

apache-spark scala apache-spark-dataset

09.05.2022

Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession?

В чем разница между SparkContext, JavaSparkContext, SQLContext и SparkSession ? Есть ли способ конвертировать или создать контекст с помощью SparkSession ? Могу ли я полностью заменить все контексты одной записью SparkSession ? Все ли...

16646 просмотров

java apache-spark scala rdd apache-spark-dataset

10.04.2023