Как устранить неполадки, когда файл не найден (удален) в пользовательском интерфейсе

Я пытаюсь исправить типы данных некоторых столбцов в моем CSV-файле, прежде чем отправлять его в большой запрос. Независимо от того, как я его запускаю, у меня получается:

Файл не найден (удален): файл gs: //bucketshahtest/*****/********.csv не найден. Возможно, он был удален при инициализации задания Dataflow. Убедитесь, что исходный файл все еще доступен, и повторно запустите задание.

(Скрытые имена файлов, чтобы это был общедоступный форум)

Я попытался изменить имя файла экспорта, попытаться переименовать исходный файл, а также изменить, следует ли экспортировать в Google Cloud Storage или BigQuery.

Я делаю это, чтобы в конечном итоге иметь возможность загружать файлы в Google Big Query и обрабатывать их.


person Kshitij Shah    schedule 20.06.2019    source источник


Ответы (1)


Я не совсем понимаю, возникает ли у вас эта ошибка при создании задания или его запуске (вы можете обновить исходный вопрос, чтобы уточнить).

Я вижу несколько возможностей:

  1. Данные, которые вы видите при работе в интерфейсе Dataprep, являются выборками. Возможно, основной файл был удален, но вы все равно видите образец. Это может быть связано с политикой истечения срока действия в сегменте / папке хранилища или действиями вручную. Вы также можете проверить это, выбрав набор данных, выбрав «Заменить» и повторно импортировав файл из облачного хранилища.
  2. Убедитесь, что входной файл существует в интерфейсе браузера Cloud Storage. Обратите особое внимание на регистр букв и пунктуацию. Также имейте в виду, что пути к файлам, содержащие несколько косых черт (например, "test // file.csv), в этом контексте будут сглажены до одной косой черты (поэтому установите свой URL-адрес соответственно). Также убедитесь, что после имя файла. По возможности лучше выбирать файл во встроенном браузере хранилища на экранах "Импорт" или "Замена", чтобы избежать проблем.
  3. Также возможно, что Dataprep не имеет необходимых разрешений на чтение из корзины или папки Cloud Storage. Убедитесь, что вы читаете из того же проекта и что были выполнены шаги по настройке Dataprep. Вы можете дважды проверить, выполнили ли вы все шаги из Быстрый старт, включая включение Cloud Storage API. Кроме того, вот некоторые дополнительные сведения об использовании Dataprep с облачным хранилищем < / а>

Вы определенно захотите использовать другое имя файла для экспорта (или импорта напрямую в BigQuery). Также убедитесь, что в настройках задания нет вывода, который перезаписывает файл И тот, который экспортируется в BigQuery. . . это также объяснило бы его сбой (поскольку он, вероятно, перезапишет файл, из которого он пытается читать). В общем, вы не хотите записывать выходные файлы в папку Uploads по умолчанию или во временные каталоги Dataprep.

Если у вас по-прежнему возникают проблемы, вы можете попробовать загрузить файл через диалоговое окно «Импорт» и посмотреть, не возникает ли ошибка при его создании в облачном хранилище, что может указывать на проблему с разрешениями.

Если ничего не помогает, я бы создал новый поток и воссоздал бы там набор данных и рецепт, чтобы протестировать и устранить любые артефакты из более ранней проблемы.

Обновление: также стоит проверить, соответствует ли объект Cloud Storage их правилам именования объектов

person justbeez    schedule 25.06.2019
comment
Спасибо за отличный ответ! Подумал о других способах решения проблем в будущем. На этот раз решение оказалось намного проще. Я пытался сохранить [] в имени файла при его переименовании, поскольку он передает некоторую важную информацию. Но оказалось, что Cloud Data Prep не нравится это в имени файла. Удалил тогда и zip zap zoom начал работать. - person Kshitij Shah; 03.07.2019
comment
@KshitijShah Из любопытства, вы выбрали файл через браузер облачного хранилища в Dataprep или вставили путь вручную? Если он был выбран в браузере, он должен был экранировать любые специальные символы (и для исправления этого следует указать ошибку). - person justbeez; 05.07.2019
comment
Я выбрал его через браузер - person Kshitij Shah; 23.07.2019