Вопросы по теме 'apache-spark-standalone'

Какой тип кластера выбрать для Spark?
Я новичок в Apache Spark и только что узнал, что Spark поддерживает три типа кластеров: Автономный - это означает, что Spark будет управлять своим собственным кластером. YARN - использование диспетчера ресурсов YARN Hadoop Mesos - проект...
38163 просмотров

Планирование ресурсов Spark — автономный менеджер кластера
У меня есть тестовая машина с довольно низкой конфигурацией для моих конвейеров данных, разработанных в Spark. Я буду использовать только один экземпляр AWS t2.large, в котором всего 2 ЦП и 8 ГБ ОЗУ. Мне нужно запустить 2 искровых потоковых...
117 просмотров

Кто загружает разделы в оперативную память в Spache Spark?
У меня такой вопрос, на который я нигде не нашел ответа. Я использую следующие строки для загрузки данных в приложение PySpark: loadFile = self.tableName+".csv" dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header",...
62 просмотров

Не удается найти выход приложения искры
У меня есть кластер, который я могу успешно запустить, по крайней мере, это то, что отображается в веб-интерфейсе, в котором я вижу эту информацию. URL: spark://Name25:7077 REST URL: spark://Name25:6066 (cluster mode) Alive Workers: 10 Cores in...
1562 просмотров

Как сделать драйвер Spark устойчивым к перезапускам Master?
У меня есть кластер Spark Standalone (не YARN / Mesos) и приложение драйвера, работающее (в клиентском режиме), которое обращается к этому кластеру для выполнения своих задач. Однако, если я завершаю работу и перезапускаю мастер и рабочие процессы...
1599 просмотров

Мастер Spark не будет отображать запущенное приложение в пользовательском интерфейсе, когда я использую Spark-submit для скрипта Python
The image shows 8081 UI. Мастер показывает запущенное приложение, когда я запускаю оболочку scala или pyspark. Но когда я использую spark-submit для запуска скрипта python, master не показывает никаких запущенных приложений. Я использовал...
6894 просмотров

как отправить пользовательский файл log4j.xml с помощью spark-submit в кластере с несколькими узлами, используя HDFS с автономным диспетчером кластера spark
Я отправляю java jar, используя spark-submit, чтобы запустить автономный менеджер кластера. Но я не могу предоставить ему собственный файл log4j.xml. Если я использовал параметр --files, то мне нужно скопировать этот файл log4j на все машины в той...
896 просмотров

Spark: перезапуск задания и повторные попытки
Предположим, у вас есть менеджер кластера Spark + Standalone. Вы открыли искровую сессию с некоторыми конфигами и хотите запустить SomeSparkJob 40 раз параллельно с разными аргументами. Вопросы Как установить сумму возврата при сбое...
2166 просмотров

Автономный кластер Spark, проблема с памятью на исполнителя
Привет, я запускаю свое приложение Spark с помощью скрипта отправки искры как такового. spark-submit --master spark://Maatari-xxxxxxx.local:7077 --class EstimatorApp...
681 просмотров

Работнику не удалось подключиться к мастеру в Spark Apache
Я развертываю приложение Spark Apache с помощью автономного диспетчера кластеров. В моей архитектуре используется 2 машины Windows, одна из которых установлена ​​​​в качестве ведущей, а другая - в качестве ведомой (рабочей). master: на котором я...
5818 просмотров

Проблема, связанная с автономным портом кластера Spark
Я развертываю приложение spark через автономный кластер. У меня есть один мастер и 2 ведомых. Я тестирую свой кластер. У меня приложение .jar копируется везде в одном и том же месте. Я заметил следующую проблему: на мастере...
75 просмотров

Автономная настройка кластера Spark
У нас есть автономный кластер spark 2.1.0, работающий на одном узле с 8 ядрами и 50 ГБ памяти (один рабочий). Запускаем искровые приложения в кластерном режиме со следующими настройками памяти — --driver-memory = 7GB (default - 1core is used)...
995 просмотров

Драйвер автономного подключения Spark к работнику
Я пытаюсь разместить локально автономный кластер искры. У меня есть две разнородные машины, подключенные к локальной сети. Каждая часть архитектуры, перечисленная ниже, работает в докере. у меня следующая конфигурация мастер на машине 1 (порт...
2905 просмотров

Как параметр SPARK_WORKER_CORES влияет на параллелизм в Spark Standalone
Я использую кластер Spark 2.2.0, настроенный в автономном режиме. Кластер имеет 2 восьмиъядерных компьютера. Этот кластер предназначен исключительно для заданий Spark, и ни один другой процесс их не использует. У меня есть около 8 приложений Spark...
1425 просмотров

Модульные тесты с использованием сеанса Spark: SparkContext был отключен
У нас есть большой проект с несколькими наборами тестов, и каждый набор тестов содержит в среднем 3 теста. Для наших модульных тестов мы используем Spark Standalone и, следовательно, не используем Yarn в качестве диспетчера ресурсов. Каждый набор...
1380 просмотров