Вопросы по теме 'apache-spark-1.6'
EOFError сериализации PySpark
Я читаю CSV как Spark DataFrame и выполняю над ним операции машинного обучения. Я продолжаю получать сериализацию Python EOFError - есть идеи, почему? Я думал, что это может быть проблема с памятью, то есть файл, превышающий доступную оперативную...
11982 просмотров
schedule
27.07.2023
Как контролировать количество разделов при чтении данных из Cassandra?
Я использую:
cassandra 2.1.12 - 3 узла
искра 1.6 - 3 узла
искра кассандра разъем 1,6
Я использую токены в Кассандре (не vnodes).
Я пишу простую работу по чтению данных из таблицы Cassandra и отображению ее таблицы подсчета имеет около...
2118 просмотров
schedule
23.08.2022
Apache Spark: установка экземпляров исполнителя
Я запускаю свое приложение Spark на YARN с параметрами:
в spark-defaults.conf:
spark.master yarn-client
spark.driver.cores 1
spark.driver.memory 1g
spark.executor.instances 6
spark.executor.memory 1g
в yarn-site.xml:...
2154 просмотров
schedule
10.08.2022
Как заменить NULL на 0 в левом внешнем соединении в кадре данных SPARK v1.6
Я работаю Spark v1.6. У меня есть следующие два кадра данных, и я хочу преобразовать нуль в 0 в моем левом внешнем соединении ResultSet. Какие-либо предложения?
кадры данных
val x: Array[Int] = Array(1,2,3)
val df_sample_x =...
10059 просмотров
schedule
06.02.2024
Как foreachRDD по записям из Kafka в Spark Streaming?
Я хотел бы запустить приложение Spark Streaming с Kafka в качестве источника данных. Он отлично работает в локальной сети, но не работает в кластере. Я использую искру 1.6.2 и Scala 2.10.6.
Вот исходный код и трассировка стека.
DevMain.scala...
1000 просмотров
schedule
03.08.2023
Не удалось загрузить таблицу кустов в Spark
Я пытаюсь загрузить данные из таблицы улья с помощью spark-sql. Однако он мне ничего не возвращает. Я попытался выполнить тот же запрос в улье, и он распечатал результат. Ниже мой код, который я пытаюсь выполнить в scala....
836 просмотров
schedule
02.10.2022
Почему чтение из CSV завершается с ошибкой NumberFormatException?
Я использую Spark 1.6.0 и Scala 2.10.5.
$ spark-shell --packages com.databricks:spark-csv_2.10:1.5.0
import org.apache.spark.sql.SQLContext
import sqlContext.implicits._
import org.apache.spark.sql.types.{StructType, StructField,...
1329 просмотров
schedule
31.07.2023
Что делать с WARN TaskSetManager: Stage содержит задачу очень большого размера?
Я использую искру 1.6.1.
Мое приложение spark читает более 10000 файлов паркета, хранящихся в s3.
val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
myPaths — это Array[String] , который содержит пути к 10000...
12906 просмотров
schedule
26.09.2023
Исключение в потоке main java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext
Я использую версию IntelliJ 2016.3.
import sbt.Keys._
import sbt._
object ApplicationBuild extends Build {
object Versions {
val spark = "1.6.3"
}
val projectName = "example-spark"
val common = Seq(
version := "1.0",...
3577 просмотров
schedule
09.03.2023
Как оптимизировать операции spark sql на большом фрейме данных?
У меня есть большая таблица улья (~ 9 миллиардов записей и ~ 45 ГБ в формате орков). Я использую Spark sql для профилирования таблицы, но на выполнение каких-либо операций с этим уходит слишком много времени. Просто подсчет самого фрейма входных...
3243 просмотров
schedule
30.08.2023
Предложение Apache spark WHERE не работает
Я запускаю Apache Spark 1.6.1 в небольшом кластере пряжи. Я пытаюсь извлечь данные из таблицы улья, используя такой запрос:
df = hiveCtx.sql("""
SELECT *
FROM hive_database.gigantic_table
WHERE loaddate = '20170502'
""")
Однако...
471 просмотров
schedule
27.05.2024
Исключение в потоке main java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging
Мой потребитель Spark не работает с ошибкой «ведения журнала». При просмотре я обнаружил ошибку из-за несовместимости банок. Я использую Spark 1.6.3, и все зависимости используются в pom, xml — 1.6.3. Тем не менее я получаю ту же ошибку. Ниже...
1143 просмотров
schedule
01.03.2023
рассчитать медиану, среднее значение с использованием кадра данных hadoop spark1.6, не удалось запустить базу данных «metastore_db»
spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 1. использование SQLContext ~~~~~~~~~~~~~~~~~~~~~~ 1. импорт org.apache. spark.sql.SQLContext 2. val sqlctx = новый SQLContext(sc) 3. импортировать sqlctx._
val df =...
344 просмотров
schedule
06.01.2023
Pyspark - обработка исключений и повышение RuntimeError в фрейме данных pyspark
У меня есть фрейм данных, в котором я пытаюсь создать новый столбец на основе значений существующего столбца:
dfg = dfg.withColumn("min_time",
F.when(dfg['list'].isin(["A","B"]),dfg['b_time'])
.when(dfg['list']=="C",dfg['b_time'] +2)...
1456 просмотров
schedule
17.10.2022
метод cast приводит к нулевым значениям в java spark
У меня есть простой вариант использования соединения двух фреймов данных, я использую версию spark 1.6.3. Проблема заключается в том, что при попытке привести строковый тип к целочисленному типу с помощью метода приведения результирующий столбец...
620 просмотров
schedule
11.08.2022
UDF в Spark 1.6 Переназначение на ошибку val
Я использую Spark 1.6
Приведенный ниже udf используется для очистки адресных данных.
sqlContext.udf.register("cleanaddress", (AD1:String,AD2: String, AD3:String)=>Boolean = _.matches("^[a-zA-Z0-9]*$"))
Имя UDF: cleanaddress Три...
46 просмотров
schedule
12.10.2022