Я создал скрипт pyspark (задание клея) и пытаюсь запустить его через экземпляр EC2 с помощью команды cli aws Glue Start-Job-Run --arguments (здесь я передаю список аргументов). Я пробовал как сокращенный синтаксис, так и синтаксис json для передачи аргументов с помощью приведенной выше команды cli, но я получаю сообщение об ошибке "GlueArgumentError: требуется аргумент --input_file_path" (путь к входному файлу - это аргумент Я пытаюсь получить доступ к скрипту pyspark, как указано ниже)
spark = SparkSession.builder.getOrCreate()
args = getResolvedOptions(sys.argv, ['input_file_path', 'CONFIG_FILE_PATH', 'SELECTED_RECORD_FILE_PATH', 'REJECTED_RECORD_FILE_PATH']
Команды cli, которые я использовал для запуска задания, следующие:
1] aws glue start-job-run --job-name dsb_clng_and_vldtn --arguments input_file_path="s3://dsb-lfnsrn-001/lndg/data/CompanyData_UK.csv"
2] aws glue start-job-run --job-name dsb_clng_and_vldtn --arguments "file://$JSON_FILES_PATH/job_arguments_list.json"
(JSON_FILES_PATH is shell variable)
В методе 2] я использовал синтаксис json для выполнения задания. Содержимое файла json выглядит следующим образом:
{
"input_file_path":"s3://dsb-lfnsrn-001/lndg/data/CompanyData_UK.csv",
"CONFIG_FILE_PATH":"s3://htcdsb-dev/wrkspc/src/dsb-lfnsrn-001-config.json",
"SELECTED_RECORD_FILE_PATH":"s3://dsb-lfnsrn-001/pckpby/processed/Valid_UK.csv",
"REJECTED_RECORD_FILE_PATH":"s3://dsb-lfnsrn-001/pckpby/processed/Invalid_UK.csv"
}
Пожалуйста, посоветуйте мне, так как я пытаюсь решить вышеуказанную проблему в течение нескольких часов.