Публикации по тегам apache-spark-1.6

Вопросы по теме 'apache-spark-1.6'

Я читаю CSV как Spark DataFrame и выполняю над ним операции машинного обучения. Я продолжаю получать сериализацию Python EOFError - есть идеи, почему? Я думал, что это может быть проблема с памятью, то есть файл, превышающий доступную оперативную...

11982 просмотров

27.07.2023

Как контролировать количество разделов при чтении данных из Cassandra?

Я использую: cassandra 2.1.12 - 3 узла искра 1.6 - 3 узла искра кассандра разъем 1,6 Я использую токены в Кассандре (не vnodes). Я пишу простую работу по чтению данных из таблицы Cassandra и отображению ее таблицы подсчета имеет около...

2118 просмотров

cassandra apache-spark spark-cassandra-connector apache-spark-1.6

23.08.2022

Apache Spark: установка экземпляров исполнителя

Я запускаю свое приложение Spark на YARN с параметрами: в spark-defaults.conf: spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g в yarn-site.xml:...

2154 просмотров

apache-spark yarn executors apache-spark-1.6

10.08.2022

Как заменить NULL на 0 в левом внешнем соединении в кадре данных SPARK v1.6

Я работаю Spark v1.6. У меня есть следующие два кадра данных, и я хочу преобразовать нуль в 0 в моем левом внешнем соединении ResultSet. Какие-либо предложения? кадры данных val x: Array[Int] = Array(1,2,3) val df_sample_x =...

10059 просмотров

apache-spark apache-spark-sql scala apache-spark-1.6

06.02.2024

Как foreachRDD по записям из Kafka в Spark Streaming?

Я хотел бы запустить приложение Spark Streaming с Kafka в качестве источника данных. Он отлично работает в локальной сети, но не работает в кластере. Я использую искру 1.6.2 и Scala 2.10.6. Вот исходный код и трассировка стека. DevMain.scala...

1000 просмотров

apache-kafka spark-streaming scala apache-spark-1.6

03.08.2023

Не удалось загрузить таблицу кустов в Spark

Я пытаюсь загрузить данные из таблицы улья с помощью spark-sql. Однако он мне ничего не возвращает. Я попытался выполнить тот же запрос в улье, и он распечатал результат. Ниже мой код, который я пытаюсь выполнить в scala....

836 просмотров

apache-spark-sql scala apache-spark-1.6

02.10.2022

Почему чтение из CSV завершается с ошибкой NumberFormatException?

Я использую Spark 1.6.0 и Scala 2.10.5. $ spark-shell --packages com.databricks:spark-csv_2.10:1.5.0 import org.apache.spark.sql.SQLContext import sqlContext.implicits._ import org.apache.spark.sql.types.{StructType, StructField,...

1329 просмотров

csv apache-spark apache-spark-sql scala apache-spark-1.6

31.07.2023

Что делать с WARN TaskSetManager: Stage содержит задачу очень большого размера?

Я использую искру 1.6.1. Мое приложение spark читает более 10000 файлов паркета, хранящихся в s3. val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*) myPaths — это Array[String] , который содержит пути к 10000...

12906 просмотров

apache-spark apache-spark-1.6

26.09.2023

Исключение в потоке main java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext

Я использую версию IntelliJ 2016.3. import sbt.Keys._ import sbt._ object ApplicationBuild extends Build { object Versions { val spark = "1.6.3" } val projectName = "example-spark" val common = Seq( version := "1.0",...

3577 просмотров

apache-spark apache-spark-sql noclassdeffounderror apache-spark-1.6

09.03.2023

Как оптимизировать операции spark sql на большом фрейме данных?

У меня есть большая таблица улья (~ 9 миллиардов записей и ~ 45 ГБ в формате орков). Я использую Spark sql для профилирования таблицы, но на выполнение каких-либо операций с этим уходит слишком много времени. Просто подсчет самого фрейма входных...

3243 просмотров

apache-spark apache-spark-sql spark-hive spark-dataframe apache-spark-1.6

30.08.2023

Предложение Apache spark WHERE не работает

Я запускаю Apache Spark 1.6.1 в небольшом кластере пряжи. Я пытаюсь извлечь данные из таблицы улья, используя такой запрос: df = hiveCtx.sql(""" SELECT * FROM hive_database.gigantic_table WHERE loaddate = '20170502' """) Однако...

471 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql apache-spark-1.6

27.05.2024

Исключение в потоке main java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging

Мой потребитель Spark не работает с ошибкой «ведения журнала». При просмотре я обнаружил ошибку из-за несовместимости банок. Я использую Spark 1.6.3, и все зависимости используются в pom, xml — 1.6.3. Тем не менее я получаю ту же ошибку. Ниже...

1143 просмотров

java apache-kafka hadoop spark-streaming apache-spark-1.6

01.03.2023

рассчитать медиану, среднее значение с использованием кадра данных hadoop spark1.6, не удалось запустить базу данных «metastore_db»

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 1. использование SQLContext ~~~~~~~~~~~~~~~~~~~~~~ 1. импорт org.apache. spark.sql.SQLContext 2. val sqlctx = новый SQLContext(sc) 3. импортировать sqlctx._ val df =...

344 просмотров

median hadoop2 hivecontext spark-dataframe apache-spark-1.6

06.01.2023

Pyspark - обработка исключений и повышение RuntimeError в фрейме данных pyspark

У меня есть фрейм данных, в котором я пытаюсь создать новый столбец на основе значений существующего столбца: dfg = dfg.withColumn("min_time", F.when(dfg['list'].isin(["A","B"]),dfg['b_time']) .when(dfg['list']=="C",dfg['b_time'] +2)...

1456 просмотров

apache-spark pyspark pyspark-sql spark-dataframe apache-spark-1.6

17.10.2022

метод cast приводит к нулевым значениям в java spark

У меня есть простой вариант использования соединения двух фреймов данных, я использую версию spark 1.6.3. Проблема заключается в том, что при попытке привести строковый тип к целочисленному типу с помощью метода приведения результирующий столбец...

620 просмотров

java apache-spark apache-spark-sql apache-spark-1.6

11.08.2022

UDF в Spark 1.6 Переназначение на ошибку val

Я использую Spark 1.6 Приведенный ниже udf используется для очистки адресных данных. sqlContext.udf.register("cleanaddress", (AD1:String,AD2: String, AD3:String)=>Boolean = _.matches("^[a-zA-Z0-9]*$")) Имя UDF: cleanaddress Три...

46 просмотров

apache-spark apache-spark-1.6

12.10.2022