Пропуск строк заголовков - возможно ли с Cloud DataFlow?

Я создал конвейер, который читает из файла в GCS, преобразует его и, наконец, записывает в таблицу BQ. Файл содержит строку заголовка (поля).

Есть ли способ программно установить «количество пропущенных строк заголовка», как это можно сделать в BQ при загрузке?

количество строк заголовка, которые нужно пропустить


person Graham Polley    schedule 11.02.2015    source источник


Ответы (1)


В настоящее время это невозможно. Похоже, здесь есть два возможных запроса:

  • Указание поведения присутствия и пропуска строк заголовков при импорте BigQuery.
  • Указание того, что текстовый источник GCS должен пропускать строку заголовка.

Дальнейшая работа над этим отслеживается в https://issues.apache.org/jira/browse/BEAM-123.

А пока вы можете добавить простой фильтр в свой код ParDo, чтобы пропускать заголовки. Что-то вроде этого:

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));
person Sam McVeety    schedule 11.02.2015
comment
Могу ли я применить какой-то фильтрующий компонент? Или вы просто имеете в виду пропуск заголовка в фактическом методе processElement моего кода ParDo, проверяя, является ли это заголовком? - person Graham Polley; 12.02.2015
comment
один из способов - начать обработку в PerDO и проверить, содержит ли эта строка заголовок, потому что если он есть, то пропустите его - person Amit_Hora; 12.01.2017
comment
рассматривалось ли это когда-либо как функция? - person CCC; 30.04.2017