Реализация SCD типа 2 в Cloud Data Fusion Pipeline

У меня есть требование применить SCD2 в моем конвейере слияния данных, и мои исходные данные - GCS, а цель - BigQuery. Я создал конвейер и смог загрузить данные в целевой BigQery, поэтому теперь я хочу реализовать процесс слияния и обновления как часть SCD2. Не могли бы вы помочь мне, поскольку я новичок в слиянии облачных данных Google.


person venkat Reddy    schedule 12.12.2019    source источник
comment
Используйте плагин BigQuery Execute Action в конце конвейера, используйте логику SCD2 в виде оператора sql, это должно сработать.   -  person phaneendra kumar    schedule 15.12.2019


Ответы (1)


Подход @ phaneendra - возможное решение. Как бы то ни было, Data Fusion предназначен для использования в визуальном режиме без кода. Если вы хотите воспользоваться его потенциалом, я бы порекомендовал вам использовать Wrangler для преобразования ваших данных. В документации Google вы можете найти интересное и быстрое руководство о том, как использовать его для очистки, преобразования и обработки данных о клиентах. Тогда вам просто нужно будет обработать преобразованные данные с помощью плагина BigQuery как вы это делаете сейчас.

person Javier Bóbeda    schedule 17.12.2019