Apache Beam, Python и GCP: развертывание потокового конвейера в Google DataFlow с использованием PubSub

Следуя серии статей об APACHE BEAM, здесь мы опишем, как очень упрощенно развернуть конвейер потоковой передачи, созданный локально, в поток данных Google.

Я уже публиковал 2 предыдущие статьи об apache beam. Один рассказывает о простоте смены пакетного пайплайна на потоковый в этом фреймворке (здесь), а другой о том, как опубликовать пакетный пайплайн в Google DataFlow (здесь). И в этой третьей статье я хочу поделиться с вами упрощенной публикацией конвейера потоковой передачи, где вы потребляете данные из подписки PubSub и пишете еще одну тему PubSub.

готовый?

СОЗДАТЬ СЛУЖЕБНЫЙ АККАУНТ

Перейдите в IAM & Admin › Service Accounts › + Create › назовите ваше SA › Create:

Затем дайте разрешение Dataflow Worker › Нажмите «Готово»:

После создания перейдите к 3 точкам справа от созданного SA и нажмите «Создать ключ» > «Выбрать JSON» > «Создать»:

Это точно такие же шаги, которые я описал в статье о пакетном конвейере.

Готово, SA (Сервисная учетная запись создана) и экспортировано, оно должно быть в папке Загрузки! Здесь приведены дополнительные сведения о том, как использовать Python SDK и Dataflow.

ВАША МЕСТНАЯ СРЕДА

Здесь ниже я описываю точно такие же инструкции, как и в статье про пакетный конвейер… А вот как это нужно сделать и я не стал, если вы читали предыдущую статью, вот подробности:

Если вы используете Apache в Direct Runner, то есть локально, у вас уже установлены пакеты Apache Beam. Теперь также установите пакеты SDK Apache Beam для GCP с помощью следующей команды…

Apache Beam, Python и GCP: развертывание потокового конвейера в Google DataFlow с использованием PubSub

СОЗДАТЬ СЛУЖЕБНЫЙ АККАУНТ

ВАША МЕСТНАЯ СРЕДА

Вопросы по теме