Вопросы по теме 'apache-spark-dataset'
Как преобразовать DataFrame в набор данных в Apache Spark на Java?
Я могу очень легко преобразовать DataFrame в набор данных в Scala:
case class Person(name:String, age:Long)
val df = ctx.read.json("/tmp/persons.json")
val ds = df.as[Person]
ds.printSchema
но в версии Java я не знаю, как преобразовать...
20386 просмотров
schedule
09.02.2023
Почему возникает ошибка «Невозможно найти кодировщик для типа, хранящегося в наборе данных» при кодировании JSON с использованием классов case?
Я написал искровую работу:
object SimpleApp {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Simple Application").setMaster("local")
val sc = new SparkContext(conf)
val ctx = new...
21362 просмотров
schedule
11.04.2023
Apache Spark 2.0: java.lang.UnsupportedOperationException: кодировщик для java.time.LocalDate не найден
Я использую Apache Spark 2.0 и создаю case class схему упоминания для DetaSet . Когда я пытаюсь определить пользовательский кодировщик в соответствии с Как сохранить пользовательские объекты в наборе данных? , для java.time.LocalDate возникло...
6549 просмотров
schedule
27.06.2022
Преобразование списка scala в DataFrame или DataSet
Я новичок в Scala. Я пытаюсь преобразовать список scala (который содержит результаты некоторых вычисленных данных в исходном DataFrame) в Dataframe или набор данных. Я не нахожу никакого прямого метода сделать это. Тем не менее, я попробовал...
26443 просмотров
schedule
28.12.2022
Создать набор данных Spark с частями другого набора данных
Я пытаюсь создать новый набор данных, взяв интервалы из другого набора данных, например, рассмотрите набор данных1 как вход и набор данных2 как выход:
dataset1 = [1, 2, 3, 4, 5, 6]
dataset2 = [1, 2, 2, 3, 3, 4, 4, 5, 5, 6]
Мне удалось сделать...
407 просмотров
schedule
12.11.2022
Как разобрать многострочный json в наборе данных apache spark java
Есть ли способ проанализировать многострочный файл json с помощью набора данных, вот пример кода
public static void main(String[] args) {
// creating spark session
SparkSession spark = SparkSession.builder().appName("Java Spark SQL basic...
4609 просмотров
schedule
27.11.2022
Как разбить строки на разные столбцы в Spark DataFrame / DataSet?
Предположим, у меня есть набор данных вроде:
Name | Subject | Y1 | Y2
A | math | 1998| 2000
B | | 1996| 1999
| science | 2004| 2005
Я хочу разбить строки этого набора данных так, чтобы столбец Y2 был удален, например:...
981 просмотров
schedule
06.06.2022
Искра проще value_counts
Что-то похожее на Spark — группировка по ключу, затем подсчет по значению позволит мне эмулировать df.series.value_counts() функциональность Pandas в Spark, чтобы:
Результирующий объект будет располагаться в порядке убывания, так что...
6134 просмотров
schedule
08.05.2023
Спарк-схема из класса case с корректной обнуляемостью
Для пользовательского метода transformSchema Estimator мне нужно иметь возможность сравнивать схему фрейма входных данных со схемой, определенной в классе case. Обычно это может быть выполнено следующим образом: класс case , как описано ниже....
6313 просмотров
schedule
04.10.2023
Закодируйте иерархию ADT / запечатанных признаков в столбец Spark DataSet
Если я хочу сохранить алгебраический тип данных (ADT) (т. Е. Запечатанную иерархию свойств Scala) в Spark DataSet , какова лучшая стратегия кодирования?
Например, если у меня есть ADT, в котором типы листьев хранят разные типы данных:
sealed...
2492 просмотров
schedule
08.09.2022
Spark Dataframes — сокращение по ключу
Допустим, у меня есть подобная структура данных, где ts - это временная метка.
case class Record(ts: Long, id: Int, value: Int)
Учитывая большое количество этих записей, я хочу получить запись с самой высокой отметкой времени для каждого...
15195 просмотров
schedule
02.06.2023
Преимущества производительности DataSet по сравнению с RDD
Прочитав несколько замечательных статей ( это , this и this ) о наборах данных Spark, я заканчиваю с производительностью следующего набора данных преимущества перед RDD:
Оптимизация логического и физического плана;
Строгая типизация;...
616 просмотров
schedule
11.05.2024
Пользовательский разделитель набора данных Spark
Не могли бы вы помочь мне найти Java API для переразбиения sales набора данных на N фрагментов одинакового размера? Под одинаковым размером я подразумеваю равное количество строк.
Dataset<Row> sales =...
3447 просмотров
schedule
20.12.2022
Spark Dataframe/набор данных: общая условная кумулятивная сумма
У меня есть кадр данных, который имеет несколько атрибутов (от C1 до C2), смещение (в днях) и несколько значений (V1, V2).
val inputDF= spark.sparkContext.parallelize(Seq((1,2,30, 100, -1),(1,2,30, 100, 0), (1,2,30, 100, 1),(11,21,30, 100,...
939 просмотров
schedule
15.02.2023
Должен ли я явно использовать методы Dataframe, чтобы воспользоваться преимуществами оптимизации набора данных?
Чтобы воспользоваться преимуществами оптимизации Dataset , нужно ли явно использовать методы Dataframe's (например, df.select(col("name"), col("age") и т. д.) или вызывать любые методы набора данных — даже RDD- похожие методы (например,...
99 просмотров
schedule
12.03.2023
Как пройти / перебрать набор данных в Spark Java?
Я пытаюсь пройти через набор данных, чтобы выполнить некоторые вычисления сходства строк, такие как Яро Винклер или Косинусное сходство. Я конвертирую свой набор данных в список строк, а затем перехожу с помощью оператора for, который не является...
27552 просмотров
schedule
07.04.2022
createDataFrame() выдает исключение при передаче javaRDD, содержащего столбец ArrayType в SPARK 2.1.
Я хочу создать Dataframe (он же Dataset‹Row› в Spark 2.1) с помощью createDataframe(), все работает хорошо, когда я передаю ему параметр List‹Row›, но он выдает исключение, когда я передаю JavaRDD‹Row›.
[Код]
SparkSession ss =...
741 просмотров
schedule
02.07.2023
Набор данных Spark с подзапросом в условии «Где»
Я пытаюсь воссоздать запрос SQL в Spark SQL. Обычно я бы вставил в таблицу вот так:
INSERT INTO Table_B
(
primary_key,
value_1,
value_2
)
SELECT DISTINCT
primary_key,
value_1,
value_2
FROM
Table_A
WHERE NOT EXISTS...
2061 просмотров
schedule
05.06.2023
Как разбить столбец с несколькими значениями на отдельные строки с помощью типизированного набора данных?
Я столкнулся с проблемой, как разбить столбец с несколькими значениями, то есть List[String] , на отдельные строки.
Исходный набор данных имеет следующие типы: Dataset[(Integer, String, Double, scala.List[String])]...
3867 просмотров
schedule
09.05.2022
Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession?
В чем разница между SparkContext, JavaSparkContext, SQLContext и SparkSession ?
Есть ли способ конвертировать или создать контекст с помощью SparkSession ?
Могу ли я полностью заменить все контексты одной записью SparkSession ?
Все ли...
16646 просмотров
schedule
10.04.2023