Вопросы по теме 'spark-submit'
Как передать внешние параметры через Spark submit
В моем приложении мне нужно подключиться к базе данных, поэтому мне нужно передать IP-адрес и имя базы данных при отправке приложения.
Я подаю заявку следующим образом: :
./spark-submit --class class name --master spark://localhost:7077 \...
18424 просмотров
schedule
10.07.2023
Память драйвера Spark и память исполнителя
Я новичок в Spark, и я запускаю свое приложение для чтения данных размером 14 КБ из текстового поля, выполнения некоторых преобразований и действий (сбор, сбор AsMap) и сохранения данных в базе данных.
Я запускаю его локально на своем макбуке с 16...
40400 просмотров
schedule
09.05.2023
Долго работающая искра отправки задания
Я пытаюсь запустить скрипт, используя искровую отправку, как это
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
Этот скрипт...
1157 просмотров
schedule
22.06.2022
Чтение входного файла из jar при запуске приложения из spark-submit
У меня есть входной файл с настраиваемыми разделителями, который передается в newAPIHadoopFile для преобразования как RDD [String]. Файл находится в каталоге ресурсов проекта. Следующий код хорошо работает при запуске из Eclipse IDE.
val path...
2797 просмотров
schedule
26.04.2022
Spark с Java — ошибка: невозможно загрузить основной класс из JAR
Я пробую простую программу машинного обучения рекомендаций фильмов в искре. Версия Spark: 2.1.1 Версия Java: java 8 Версия Scala: версия Scala code runner 2.11.7 Env: windows 7
Выполнение этих команд для запуска основных и рабочих подчиненных...
2795 просмотров
schedule
27.09.2022
Форсировать Python2 с помощью spark-submit
Я создаю приложение Spark с помощью AWS EMR, но spark-submit работает с Python 3 вместо Python 2. Но когда вместо этого я запускаю pyspark, это Python 2.
Как я могу заставить spark-submit использовать Python 2?
я пытался сделать
export...
809 просмотров
schedule
14.06.2023
spark-submit : передать переменную времени выполнения в скрипт искры
Я отправляю скрипт Pyspark/SparkSQL, используя опцию spark-submit, и мне нужно передать переменные времени выполнения (имя базы данных) в скрипт
команда отправки искры:
spark-submit --conf database_parameter=my_database my_pyspark_script.py...
6967 просмотров
schedule
10.07.2022
Где работает драйвер Spark в кластерном режиме и можно ли им управлять?
Хотя у меня есть несколько документов, которые предполагают, что драйвер работает на своем собственном узле, который является ведущим, а исполнители на подчиненном узле также называются рабочими, я как-то запутался с этим. Поэтому я хотел бы...
1090 просмотров
schedule
07.08.2022
Как сохранить файл на кластере
Я подключаюсь к кластеру с помощью ssh и отправляю программу в кластер с помощью
spark-submit --master yarn myProgram.py
Я хочу сохранить результат в текстовом файле, и я попытался использовать следующие строки:...
3690 просмотров
schedule
24.02.2023
В вашей конфигурации должен быть установлен главный URL-адрес, что создает путаницу.
Я скомпилировал свой код spark-scala в eclipse. Я пытаюсь запустить свой jar-файл в EMR ( 5.9.0 Spark 2.2.0 ), используя опцию spark-submit. Но при беге получаю ошибку:
Details : Exception in thread "main" org.apache.spark.SparkException: A...
3426 просмотров
schedule
23.03.2023
Драйвер автономного подключения Spark к работнику
Я пытаюсь разместить локально автономный кластер искры. У меня есть две разнородные машины, подключенные к локальной сети. Каждая часть архитектуры, перечисленная ниже, работает в докере. у меня следующая конфигурация
мастер на машине 1 (порт...
2905 просмотров
schedule
15.05.2023
запустить приложение Python с помощью spark-submit в AWS EMR
Я новичок в Spark, и у меня проблемы с репликацией пример в документации EMR для отправки базового пользовательского приложения с spark-submit через интерфейс командной строки AWS. Кажется, что он работает без ошибок, но ничего не выводит....
6980 просмотров
schedule
28.05.2022
Ошибка PySpark в Jupyter после установки PYSPARK_SUBMIT_ARGS
Я пытаюсь загрузить пакет Spark (2.2.1) в блокнот Jupyter, который в противном случае может нормально запускать Spark. Как только я добавлю
%env PYSPARK_SUBMIT_ARGS='--packages com.databricks:spark-redshift_2.10:2.0.1 pyspark-shell'
Я...
3040 просмотров
schedule
17.05.2023
Исключение ClassNotFound в коде Spark Scala
Я использовал проект maven в Scala. Я использовал все зависимости в pom.
Тем не менее я получаю ClassNotFoundException , когда запускаю команду spark-submit .
clean compile assembly:single - это цель Maven, которую я использовал.
Ниже...
97 просмотров
schedule
26.02.2023
Модуль не найден при попытке отправить проект Python
Я запускаю Spark 2.2.0 на пряже, пытаясь отправить файл Python backtest.py со всеми файлами проекта, заархивированными в prediction.zip . См. ниже команду отправки искры.
Проблема в том, что Spark не может найти один из моих модулей. Что мне...
858 просмотров
schedule
06.07.2022
Выходные результаты spark-submit
Я новичок в программировании spark и scala, я попытался запустить пример с spark-submit в локальном режиме, он выполняется без каких-либо ошибок или других сообщений, но я не вижу никакого результата вывода в веб-интерфейсе консула или истории искры....
2621 просмотров
schedule
23.09.2022
Как передать конфигурацию от spark-submit до кластера пряжи?
Мне интересно, есть ли способ для spark-submit временно изменить конфигурацию задания пряжи?
Вопрос в том, что наш сервер истории кластера Spark поверх пряжи разрешает доступ только администратору, что неудобно для пользователя, чтобы получить...
885 просмотров
schedule
06.04.2023
Автономный скрипт pyspark без искры
Я новичок в установке Spark на машине Linux и, возможно, у меня есть базовый вопрос: я установил Spark версии 1.6.0 и Python 2.6.6.
В интерактивном режиме Spark я могу запускать эти простые команды для подсчета строк в файле README.md.
Однако я...
1349 просмотров
schedule
13.05.2022
Как получить идентификатор водителя при отправке искры
Информация о искровом кластере:
Искра версия: 2.2.0
Кластер содержит главный узел с 2 рабочими узлами.
Тип менеджера кластера: автономный
Я отправляю банку в искровой кластер от одного из рабочих, и я хочу получить идентификатор драйвера...
1008 просмотров
schedule
07.03.2023
Задание Spark, создающее только 1 этапную задачу при выполнении
Я пытаюсь загрузить данные из DB2 в Hive с помощью Spark 2.1.1. и Скала 2.11. Используемый код приведен ниже
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql
import...
166 просмотров
schedule
10.03.2023