Вопросы по теме 'apache-spark-dataset'

Как преобразовать DataFrame в набор данных в Apache Spark на Java?
Я могу очень легко преобразовать DataFrame в набор данных в Scala: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchema но в версии Java я не знаю, как преобразовать...
20386 просмотров

Почему возникает ошибка «Невозможно найти кодировщик для типа, хранящегося в наборе данных» при кодировании JSON с использованием классов case?
Я написал искровую работу: object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ctx = new...
21362 просмотров

Apache Spark 2.0: java.lang.UnsupportedOperationException: кодировщик для java.time.LocalDate не найден
Я использую Apache Spark 2.0 и создаю case class схему упоминания для DetaSet . Когда я пытаюсь определить пользовательский кодировщик в соответствии с Как сохранить пользовательские объекты в наборе данных? , для java.time.LocalDate возникло...
6549 просмотров

Преобразование списка scala в DataFrame или DataSet
Я новичок в Scala. Я пытаюсь преобразовать список scala (который содержит результаты некоторых вычисленных данных в исходном DataFrame) в Dataframe или набор данных. Я не нахожу никакого прямого метода сделать это. Тем не менее, я попробовал...
26443 просмотров

Создать набор данных Spark с частями другого набора данных
Я пытаюсь создать новый набор данных, взяв интервалы из другого набора данных, например, рассмотрите набор данных1 как вход и набор данных2 как выход: dataset1 = [1, 2, 3, 4, 5, 6] dataset2 = [1, 2, 2, 3, 3, 4, 4, 5, 5, 6] Мне удалось сделать...
407 просмотров

Как разобрать многострочный json в наборе данных apache spark java
Есть ли способ проанализировать многострочный файл json с помощью набора данных, вот пример кода public static void main(String[] args) { // creating spark session SparkSession spark = SparkSession.builder().appName("Java Spark SQL basic...
4609 просмотров

Как разбить строки на разные столбцы в Spark DataFrame / DataSet?
Предположим, у меня есть набор данных вроде: Name | Subject | Y1 | Y2 A | math | 1998| 2000 B | | 1996| 1999 | science | 2004| 2005 Я хочу разбить строки этого набора данных так, чтобы столбец Y2 был удален, например:...
981 просмотров

Искра проще value_counts
Что-то похожее на Spark — группировка по ключу, затем подсчет по значению позволит мне эмулировать df.series.value_counts() функциональность Pandas в Spark, чтобы: Результирующий объект будет располагаться в порядке убывания, так что...
6134 просмотров

Спарк-схема из класса case с корректной обнуляемостью
Для пользовательского метода transformSchema Estimator мне нужно иметь возможность сравнивать схему фрейма входных данных со схемой, определенной в классе case. Обычно это может быть выполнено следующим образом: класс case , как описано ниже....
6313 просмотров

Закодируйте иерархию ADT / запечатанных признаков в столбец Spark DataSet
Если я хочу сохранить алгебраический тип данных (ADT) (т. Е. Запечатанную иерархию свойств Scala) в Spark DataSet , какова лучшая стратегия кодирования? Например, если у меня есть ADT, в котором типы листьев хранят разные типы данных: sealed...
2492 просмотров

Spark Dataframes — сокращение по ключу
Допустим, у меня есть подобная структура данных, где ts - это временная метка. case class Record(ts: Long, id: Int, value: Int) Учитывая большое количество этих записей, я хочу получить запись с самой высокой отметкой времени для каждого...
15195 просмотров

Преимущества производительности DataSet по сравнению с RDD
Прочитав несколько замечательных статей ( это , this и this ) о наборах данных Spark, я заканчиваю с производительностью следующего набора данных преимущества перед RDD: Оптимизация логического и физического плана; Строгая типизация;...
616 просмотров
schedule 11.05.2024

Пользовательский разделитель набора данных Spark
Не могли бы вы помочь мне найти Java API для переразбиения sales набора данных на N фрагментов одинакового размера? Под одинаковым размером я подразумеваю равное количество строк. Dataset<Row> sales =...
3447 просмотров

Spark Dataframe/набор данных: общая условная кумулятивная сумма
У меня есть кадр данных, который имеет несколько атрибутов (от C1 до C2), смещение (в днях) и несколько значений (V1, V2). val inputDF= spark.sparkContext.parallelize(Seq((1,2,30, 100, -1),(1,2,30, 100, 0), (1,2,30, 100, 1),(11,21,30, 100,...
939 просмотров

Должен ли я явно использовать методы Dataframe, чтобы воспользоваться преимуществами оптимизации набора данных?
Чтобы воспользоваться преимуществами оптимизации Dataset , нужно ли явно использовать методы Dataframe's (например, df.select(col("name"), col("age") и т. д.) или вызывать любые методы набора данных — даже RDD- похожие методы (например,...
99 просмотров

Как пройти / перебрать набор данных в Spark Java?
Я пытаюсь пройти через набор данных, чтобы выполнить некоторые вычисления сходства строк, такие как Яро Винклер или Косинусное сходство. Я конвертирую свой набор данных в список строк, а затем перехожу с помощью оператора for, который не является...
27552 просмотров

createDataFrame() выдает исключение при передаче javaRDD, содержащего столбец ArrayType в SPARK 2.1.
Я хочу создать Dataframe (он же Dataset‹Row› в Spark 2.1) с помощью createDataframe(), все работает хорошо, когда я передаю ему параметр List‹Row›, но он выдает исключение, когда я передаю JavaRDD‹Row›. [Код] SparkSession ss =...
741 просмотров

Набор данных Spark с подзапросом в условии «Где»
Я пытаюсь воссоздать запрос SQL в Spark SQL. Обычно я бы вставил в таблицу вот так: INSERT INTO Table_B ( primary_key, value_1, value_2 ) SELECT DISTINCT primary_key, value_1, value_2 FROM Table_A WHERE NOT EXISTS...
2061 просмотров
schedule 05.06.2023

Как разбить столбец с несколькими значениями на отдельные строки с помощью типизированного набора данных?
Я столкнулся с проблемой, как разбить столбец с несколькими значениями, то есть List[String] , на отдельные строки. Исходный набор данных имеет следующие типы: Dataset[(Integer, String, Double, scala.List[String])]...
3867 просмотров

Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession?
В чем разница между SparkContext, JavaSparkContext, SQLContext и SparkSession ? Есть ли способ конвертировать или создать контекст с помощью SparkSession ? Могу ли я полностью заменить все контексты одной записью SparkSession ? Все ли...
16646 просмотров