Вопросы по теме 'apache-spark-1.6'

EOFError сериализации PySpark
Я читаю CSV как Spark DataFrame и выполняю над ним операции машинного обучения. Я продолжаю получать сериализацию Python EOFError - есть идеи, почему? Я думал, что это может быть проблема с памятью, то есть файл, превышающий доступную оперативную...
11982 просмотров

Как контролировать количество разделов при чтении данных из Cassandra?
Я использую: cassandra 2.1.12 - 3 узла искра 1.6 - 3 узла искра кассандра разъем 1,6 Я использую токены в Кассандре (не vnodes). Я пишу простую работу по чтению данных из таблицы Cassandra и отображению ее таблицы подсчета имеет около...
2118 просмотров

Apache Spark: установка экземпляров исполнителя
Я запускаю свое приложение Spark на YARN с параметрами: в spark-defaults.conf: spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g в yarn-site.xml:...
2154 просмотров

Как заменить NULL на 0 в левом внешнем соединении в кадре данных SPARK v1.6
Я работаю Spark v1.6. У меня есть следующие два кадра данных, и я хочу преобразовать нуль в 0 в моем левом внешнем соединении ResultSet. Какие-либо предложения? кадры данных val x: Array[Int] = Array(1,2,3) val df_sample_x =...
10059 просмотров

Как foreachRDD по записям из Kafka в Spark Streaming?
Я хотел бы запустить приложение Spark Streaming с Kafka в качестве источника данных. Он отлично работает в локальной сети, но не работает в кластере. Я использую искру 1.6.2 и Scala 2.10.6. Вот исходный код и трассировка стека. DevMain.scala...
1000 просмотров

Не удалось загрузить таблицу кустов в Spark
Я пытаюсь загрузить данные из таблицы улья с помощью spark-sql. Однако он мне ничего не возвращает. Я попытался выполнить тот же запрос в улье, и он распечатал результат. Ниже мой код, который я пытаюсь выполнить в scala....
836 просмотров

Почему чтение из CSV завершается с ошибкой NumberFormatException?
Я использую Spark 1.6.0 и Scala 2.10.5. $ spark-shell --packages com.databricks:spark-csv_2.10:1.5.0 import org.apache.spark.sql.SQLContext import sqlContext.implicits._ import org.apache.spark.sql.types.{StructType, StructField,...
1329 просмотров

Что делать с WARN TaskSetManager: Stage содержит задачу очень большого размера?
Я использую искру 1.6.1. Мое приложение spark читает более 10000 файлов паркета, хранящихся в s3. val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*) myPaths — это Array[String] , который содержит пути к 10000...
12906 просмотров
schedule 26.09.2023

Исключение в потоке main java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext
Я использую версию IntelliJ 2016.3. import sbt.Keys._ import sbt._ object ApplicationBuild extends Build { object Versions { val spark = "1.6.3" } val projectName = "example-spark" val common = Seq( version := "1.0",...
3577 просмотров

Как оптимизировать операции spark sql на большом фрейме данных?
У меня есть большая таблица улья (~ 9 миллиардов записей и ~ 45 ГБ в формате орков). Я использую Spark sql для профилирования таблицы, но на выполнение каких-либо операций с этим уходит слишком много времени. Просто подсчет самого фрейма входных...
3243 просмотров

Предложение Apache spark WHERE не работает
Я запускаю Apache Spark 1.6.1 в небольшом кластере пряжи. Я пытаюсь извлечь данные из таблицы улья, используя такой запрос: df = hiveCtx.sql(""" SELECT * FROM hive_database.gigantic_table WHERE loaddate = '20170502' """) Однако...
471 просмотров

Исключение в потоке main java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging
Мой потребитель Spark не работает с ошибкой «ведения журнала». При просмотре я обнаружил ошибку из-за несовместимости банок. Я использую Spark 1.6.3, и все зависимости используются в pom, xml — 1.6.3. Тем не менее я получаю ту же ошибку. Ниже...
1143 просмотров

рассчитать медиану, среднее значение с использованием кадра данных hadoop spark1.6, не удалось запустить базу данных «metastore_db»
spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 1. использование SQLContext ~~~~~~~~~~~~~~~~~~~~~~ 1. импорт org.apache. spark.sql.SQLContext 2. val sqlctx = новый SQLContext(sc) 3. импортировать sqlctx._ val df =...
344 просмотров

Pyspark - обработка исключений и повышение RuntimeError в фрейме данных pyspark
У меня есть фрейм данных, в котором я пытаюсь создать новый столбец на основе значений существующего столбца: dfg = dfg.withColumn("min_time", F.when(dfg['list'].isin(["A","B"]),dfg['b_time']) .when(dfg['list']=="C",dfg['b_time'] +2)...
1456 просмотров

метод cast приводит к нулевым значениям в java spark
У меня есть простой вариант использования соединения двух фреймов данных, я использую версию spark 1.6.3. Проблема заключается в том, что при попытке привести строковый тип к целочисленному типу с помощью метода приведения результирующий столбец...
620 просмотров

UDF в Spark 1.6 Переназначение на ошибку val
Я использую Spark 1.6 Приведенный ниже udf используется для очистки адресных данных. sqlContext.udf.register("cleanaddress", (AD1:String,AD2: String, AD3:String)=>Boolean = _.matches("^[a-zA-Z0-9]*$")) Имя UDF: cleanaddress Три...
46 просмотров
schedule 12.10.2022