Не удается прочитать данные из Google Cloud Platform в сборщике данных StreamSets.

Я пытаюсь создать конвейер в сборщике данных StreamSets для чтения данных из корзины Google Cloud Platform и загрузки данных в ту же корзину с другим именем файла.

Файл данных в ведре находится в формате JSON.

Я использовал источник Google Cloud Storage в сборщике данных StreamSets и дал следующие свойства:

  • Общий префикс = gs://<my-bucket-name>/<json-file-name>
  • Шаблон префикса = https://storage.cloud.google.com/<my-bucket-name>/<json-file-name>

Может ли кто-нибудь исправить или предложить какие-либо альтернативные варианты?


person Moushmi    schedule 21.11.2019    source источник


Ответы (1)


Это описано в разделе Общий префикс, шаблон префикса и подстановочные знаки. .

  • Общий префикс — общий путь для всех файлов, которые вы хотите прочитать.
  • Шаблон префикса содержит подстановочные знаки, определяющие файлы, которые вы хотите прочитать

Ни один из них не должен содержать имя корзины (поскольку оно настраивается отдельно) или протокол. В вашем случае, похоже, вы можете использовать что-то вроде:

  • Общий префикс: /
  • Шаблон префикса: *.json (или другой подстановочный знак, соответствующий вашим файлам)
person metadaddy    schedule 27.11.2019