Вопросы по теме 'spark-submit'

Как передать внешние параметры через Spark submit
В моем приложении мне нужно подключиться к базе данных, поэтому мне нужно передать IP-адрес и имя базы данных при отправке приложения. Я подаю заявку следующим образом: : ./spark-submit --class class name --master spark://localhost:7077 \...
18424 просмотров
schedule 10.07.2023

Память драйвера Spark и память исполнителя
Я новичок в Spark, и я запускаю свое приложение для чтения данных размером 14 КБ из текстового поля, выполнения некоторых преобразований и действий (сбор, сбор AsMap) и сохранения данных в базе данных. Я запускаю его локально на своем макбуке с 16...
40400 просмотров

Долго работающая искра отправки задания
Я пытаюсь запустить скрипт, используя искровую отправку, как это spark-submit -v \ --master yarn \ --num-executors 80 \ --driver-memory 10g \ --executor-memory 10g \ --executor-cores 5 \ --class cosineSimillarity jobs-1.0.jar Этот скрипт...
1157 просмотров

Чтение входного файла из jar при запуске приложения из spark-submit
У меня есть входной файл с настраиваемыми разделителями, который передается в newAPIHadoopFile для преобразования как RDD [String]. Файл находится в каталоге ресурсов проекта. Следующий код хорошо работает при запуске из Eclipse IDE. val path...
2797 просмотров

Spark с Java — ошибка: невозможно загрузить основной класс из JAR
Я пробую простую программу машинного обучения рекомендаций фильмов в искре. Версия Spark: 2.1.1 Версия Java: java 8 Версия Scala: версия Scala code runner 2.11.7 Env: windows 7 Выполнение этих команд для запуска основных и рабочих подчиненных...
2795 просмотров

Форсировать Python2 с помощью spark-submit
Я создаю приложение Spark с помощью AWS EMR, но spark-submit работает с Python 3 вместо Python 2. Но когда вместо этого я запускаю pyspark, это Python 2. Как я могу заставить spark-submit использовать Python 2? я пытался сделать export...
809 просмотров

spark-submit : передать переменную времени выполнения в скрипт искры
Я отправляю скрипт Pyspark/SparkSQL, используя опцию spark-submit, и мне нужно передать переменные времени выполнения (имя базы данных) в скрипт команда отправки искры: spark-submit --conf database_parameter=my_database my_pyspark_script.py...
6967 просмотров

Где работает драйвер Spark в кластерном режиме и можно ли им управлять?
Хотя у меня есть несколько документов, которые предполагают, что драйвер работает на своем собственном узле, который является ведущим, а исполнители на подчиненном узле также называются рабочими, я как-то запутался с этим. Поэтому я хотел бы...
1090 просмотров
schedule 07.08.2022

Как сохранить файл на кластере
Я подключаюсь к кластеру с помощью ssh и отправляю программу в кластер с помощью spark-submit --master yarn myProgram.py Я хочу сохранить результат в текстовом файле, и я попытался использовать следующие строки:...
3690 просмотров

В вашей конфигурации должен быть установлен главный URL-адрес, что создает путаницу.
Я скомпилировал свой код spark-scala в eclipse. Я пытаюсь запустить свой jar-файл в EMR ( 5.9.0 Spark 2.2.0 ), используя опцию spark-submit. Но при беге получаю ошибку: Details : Exception in thread "main" org.apache.spark.SparkException: A...
3426 просмотров
schedule 23.03.2023

Драйвер автономного подключения Spark к работнику
Я пытаюсь разместить локально автономный кластер искры. У меня есть две разнородные машины, подключенные к локальной сети. Каждая часть архитектуры, перечисленная ниже, работает в докере. у меня следующая конфигурация мастер на машине 1 (порт...
2905 просмотров

запустить приложение Python с помощью spark-submit в AWS EMR
Я новичок в Spark, и у меня проблемы с репликацией пример в документации EMR для отправки базового пользовательского приложения с spark-submit через интерфейс командной строки AWS. Кажется, что он работает без ошибок, но ничего не выводит....
6980 просмотров

Ошибка PySpark в Jupyter после установки PYSPARK_SUBMIT_ARGS
Я пытаюсь загрузить пакет Spark (2.2.1) в блокнот Jupyter, который в противном случае может нормально запускать Spark. Как только я добавлю %env PYSPARK_SUBMIT_ARGS='--packages com.databricks:spark-redshift_2.10:2.0.1 pyspark-shell' Я...
3040 просмотров

Исключение ClassNotFound в коде Spark Scala
Я использовал проект maven в Scala. Я использовал все зависимости в pom. Тем не менее я получаю ClassNotFoundException , когда запускаю команду spark-submit . clean compile assembly:single - это цель Maven, которую я использовал. Ниже...
97 просмотров
schedule 26.02.2023

Модуль не найден при попытке отправить проект Python
Я запускаю Spark 2.2.0 на пряже, пытаясь отправить файл Python backtest.py со всеми файлами проекта, заархивированными в prediction.zip . См. ниже команду отправки искры. Проблема в том, что Spark не может найти один из моих модулей. Что мне...
858 просмотров

Выходные результаты spark-submit
Я новичок в программировании spark и scala, я попытался запустить пример с spark-submit в локальном режиме, он выполняется без каких-либо ошибок или других сообщений, но я не вижу никакого результата вывода в веб-интерфейсе консула или истории искры....
2621 просмотров
schedule 23.09.2022

Как передать конфигурацию от spark-submit до кластера пряжи?
Мне интересно, есть ли способ для spark-submit временно изменить конфигурацию задания пряжи? Вопрос в том, что наш сервер истории кластера Spark поверх пряжи разрешает доступ только администратору, что неудобно для пользователя, чтобы получить...
885 просмотров

Автономный скрипт pyspark без искры
Я новичок в установке Spark на машине Linux и, возможно, у меня есть базовый вопрос: я установил Spark версии 1.6.0 и Python 2.6.6. В интерактивном режиме Spark я могу запускать эти простые команды для подсчета строк в файле README.md. Однако я...
1349 просмотров
schedule 13.05.2022

Как получить идентификатор водителя при отправке искры
Информация о искровом кластере: Искра версия: 2.2.0 Кластер содержит главный узел с 2 рабочими узлами. Тип менеджера кластера: автономный Я отправляю банку в искровой кластер от одного из рабочих, и я хочу получить идентификатор драйвера...
1008 просмотров

Задание Spark, создающее только 1 этапную задачу при выполнении
Я пытаюсь загрузить данные из DB2 в Hive с помощью Spark 2.1.1. и Скала 2.11. Используемый код приведен ниже import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql import...
166 просмотров