Следуя серии статей об APACHE BEAM, здесь мы опишем, как очень упрощенно развернуть конвейер потоковой передачи, созданный локально, в поток данных Google.
Я уже публиковал 2 предыдущие статьи об apache beam. Один рассказывает о простоте смены пакетного пайплайна на потоковый в этом фреймворке (здесь), а другой о том, как опубликовать пакетный пайплайн в Google DataFlow (здесь). И в этой третьей статье я хочу поделиться с вами упрощенной публикацией конвейера потоковой передачи, где вы потребляете данные из подписки PubSub и пишете еще одну тему PubSub.
готовый?
СОЗДАТЬ СЛУЖЕБНЫЙ АККАУНТ
Перейдите в IAM & Admin › Service Accounts › + Create › назовите ваше SA › Create:
Затем дайте разрешение Dataflow Worker › Нажмите «Готово»:
После создания перейдите к 3 точкам справа от созданного SA и нажмите «Создать ключ» > «Выбрать JSON» > «Создать»:
Это точно такие же шаги, которые я описал в статье о пакетном конвейере.
Готово, SA (Сервисная учетная запись создана) и экспортировано, оно должно быть в папке Загрузки! Здесь приведены дополнительные сведения о том, как использовать Python SDK и Dataflow.
ВАША МЕСТНАЯ СРЕДА
Здесь ниже я описываю точно такие же инструкции, как и в статье про пакетный конвейер… А вот как это нужно сделать и я не стал, если вы читали предыдущую статью, вот подробности:
Если вы используете Apache в Direct Runner, то есть локально, у вас уже установлены пакеты Apache Beam. Теперь также установите пакеты SDK Apache Beam для GCP с помощью следующей команды…