Установка инструмента построения данных для вашего конкретного хранилища данных

Инструмент построения данных (dbt), несомненно, является одним из самых мощных инструментов в современных стеках данных, поскольку он позволяет командам и организациям управлять моделями данных и преобразовывать их масштабируемым, эффективным и действенным способом. dbt обработает все взаимозависимости модели данных и предоставит вам все необходимое для выполнения тестов над вашими данными и улучшения качества данных ваших активов данных.

В зависимости от платформы данных, которую вы используете, вам придется установить несколько дополнительных адаптеров, чтобы dbt работал и правильно взаимодействовал с этой платформой. В следующих нескольких разделах мы покажем, как установить dbt и необходимые адаптеры в виртуальной среде, чтобы начать работу с инструментом построения данных.

Создание виртуальной среды

Сначала нам нужно создать виртуальную среду, которая является средой, изолированной от всего, что установлено на хост-компьютере:

Виртуальная среда создается поверх существующей установки Python, известной как базовый Python виртуальной среды, и может быть дополнительно изолирована от пакетов в базовой среде, поэтому доступны только те, которые явно установлены в виртуальной среде. — Питон Документы

python3 -m vevn dbt-venv

А затем активируйте только что созданный venv:

source dbt-venv/bin/activate

Если все прошло гладко, вы должны увидеть префикс (dbt-venv) в каждой строке терминала.

Установка dbt-core

dbt предлагает два возможных способа взаимодействия с самим инструментом и запуска проектов — один в облаке, а другой — через интерфейс командной строки (cli). В этом руководстве мы покажем, как установить необходимые пакеты, которые позволят вам использовать dbt с вашего локального компьютера.

Поэтому первая зависимость, которую вам нужно установить, это dbt-core. Следующая команда установит последнюю версию, доступную в PyPI:

pip install dbt-core

Если вы хотите установить конкретную версию, вам нужно будет указать ее в команде установки:

pip install dbt-core==1.3.0

После завершения установки вы можете убедиться, что она была установлена ​​успешно, выполнив следующую команду, которая просто выведет на терминал версию dbt, установленную на вашем локальном компьютере:

dbt --version

Установка плагинов dbt для вашей платформы данных

Теперь для успешной работы dbt необходимо установить соединение с платформой данных, которую используете вы (или ваши команды). Инструмент построения данных можно распространить на любую платформу с помощью плагина-адаптера. Вы можете думать об этих плагинах как о модулях Python, которые используются dbt-core, которые мы установили на предыдущем шаге.

dbt Labs поддерживает некоторые из своих собственных адаптеров, в то время как некоторые другие были изначально созданы (и активно поддерживаются) сообществом. Полный список доступных плагинов вы можете найти здесь. Ниже я поделюсь некоторыми инструкциями по установке для некоторых из них:

BigQuery (облачная платформа Google)

pip install dbt-bigquery

Афина

pip install dbt-athena-adapter

Postgres и AlloyDB

pip install dbt-postgres

Azure Synapse

pip install dbt-synapse

Кирпичи данных

pip install dbt-databricks

Красное смещение

pip install dbt-redshift

Снежинка

pip install dbt-snowflake

Искра

pip install dbt-spark

Следующие шаги

Теперь, когда вы успешно установили dbt-core и необходимые адаптеры на основе используемых вами платформ данных, вы готовы создать свой первый проект dbt и профили, необходимые для взаимодействия с целевыми платформами данных. В ближайшие несколько дней я поделюсь еще несколькими уроками о том, как это сделать, поэтому не забудьте подписаться и получать уведомления, когда эти статьи выйдут!

Последние мысли

Если вы еще не пробовали инструмент построения данных, я настоятельно рекомендую вам попробовать его — есть вероятность, что вы будете поражены тем, как он поможет вашей команде свести к минимуму усилия по созданию, управлению и поддержке моделей данных.

В сегодняшнем кратком руководстве мы рассмотрели шаги, необходимые для установки установки dbt на вашем локальном компьютере. Это руководство поможет вам установить интерфейс командной строки dbt, а также необходимые адаптеры (в зависимости от предпочитаемой вами платформы данных), необходимые для создания, управления, запуска и тестирования моделей данных.

Стать участником и читать все истории на Medium. Ваш членский взнос напрямую поддерживает меня и других писателей, которых вы читаете. Вы также получите полный доступ ко всем историям на Medium.



Статьи по теме, которые вам также могут понравиться