Добавление дополнительных данных в Bigquery из MySql с помощью Cloud Data Fusion

Я хочу запланировать конвейер, который передает данные MySql в Google Bigquery, но полные данные добавляются к старой таблице в BQ, я хочу, чтобы добавлялись только добавочные данные ...


person Amit Kaushik    schedule 24.04.2019    source источник


Ответы (2)


Вам нужна возможность «обновить при наличии» схему, которая в настоящее время недоступна в плагине BQ. Мы работаем над обновлением плагина, чтобы иметь возможность поддерживать это (открыли JIRA https://issues.cask.co/browse/CDAP-15298). Кроме того, вы можете записывать его в отдельную таблицу при каждом запуске, а затем использовать «слияние» для обновления основной таблицы. Открыл JIRA для добавления подключаемого модуля действия слияния, который позволяет объединять таблицы (https://issues.cask.co/browse/CDAP-15297)

person Nitin Motgi    schedule 24.04.2019
comment
Как мы можем записывать только инкрементные данные mysql в отдельную таблицу, если мы не будем поддерживать индексы вручную (если мы этого не сделаем, она снова вытащит всю таблицу, что нам не нужно, или есть способ обойти это?). Поддержание индексов невозможно, если ежедневно обновляется большое количество таблиц? Если бы мы могли отслеживать это, мы могли бы просто выбрать строки за пределами этого индекса и добавить их в таблицу BQ, чего мы снова не хотим делать. - person Amit Kaushik; 25.04.2019

Можно ли рассчитывать разницу для импорта каждый раз на основе столбца в ваших данных?

person Ali Anwar    schedule 24.04.2019
comment
Я ничего не нашел по этому поводу. В слиянии данных нет способа использовать или отслеживать данные приемника до данных источника следующего запланированного задания ... - person Amit Kaushik; 25.04.2019