Автоматизация активности Hive с помощью aws

Я хотел бы автоматизировать свой скрипт куста каждый день, для этого у меня есть опция, которая представляет собой конвейер данных. Но проблема в том, что я экспортирую данные из dynamo-db в s3 и с помощью сценария куста я манипулирую этими данными. Я даю этот ввод и вывод в скрипте улья, вот где начинается проблема, потому что активность улья должна иметь ввод и вывод, но я должен дать их в файле сценария.

Я пытаюсь найти способ автоматизировать этот улей-скрипт и жду каких-то идей?

Ваше здоровье,


person Ducaz035    schedule 31.10.2013    source источник
comment
Вы пытались выполнить шаг улья как действие emr, предоставив шаг?   -  person Max Jindal    schedule 16.11.2013


Ответы (2)


Вы можете отключить постановку в Hive Activity для запуска любого произвольного сценария Hive.

stage = false

Сделайте что-нибудь вроде:

{
  "name": "DefaultActivity1",
  "id": "ActivityId_1",
  "type": "HiveActivity",
  "stage": "false",
  "scriptUri": "s3://baucket/query.hql",
  "scriptVariable": [
    "param1=value1",
    "param2=value2"
  ],
  "schedule": {
    "ref": "ScheduleId_l"
  },
  "runsOn": {
    "ref": "EmrClusterId_1"
  }
},
person panther    schedule 16.11.2013

Другой альтернативой действию Hive является использование действия EMR, как в следующем примере:

{
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "name": "EMR Activity name",
      "step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql",
      "runsOn": {
        "ref": "EmrClusterId"
      },
      "id": "EmrActivityId",
      "type": "EmrActivity"
    }
person Anxo P    schedule 07.01.2019