Установка инструмента построения данных для вашего конкретного хранилища данных
Инструмент построения данных (dbt), несомненно, является одним из самых мощных инструментов в современных стеках данных, поскольку он позволяет командам и организациям управлять моделями данных и преобразовывать их масштабируемым, эффективным и действенным способом. dbt обработает все взаимозависимости модели данных и предоставит вам все необходимое для выполнения тестов над вашими данными и улучшения качества данных ваших активов данных.
В зависимости от платформы данных, которую вы используете, вам придется установить несколько дополнительных адаптеров, чтобы dbt работал и правильно взаимодействовал с этой платформой. В следующих нескольких разделах мы покажем, как установить dbt
и необходимые адаптеры в виртуальной среде, чтобы начать работу с инструментом построения данных.
Создание виртуальной среды
Сначала нам нужно создать виртуальную среду, которая является средой, изолированной от всего, что установлено на хост-компьютере:
Виртуальная среда создается поверх существующей установки Python, известной как базовый Python виртуальной среды, и может быть дополнительно изолирована от пакетов в базовой среде, поэтому доступны только те, которые явно установлены в виртуальной среде. — Питон Документы
python3 -m vevn dbt-venv
А затем активируйте только что созданный venv:
source dbt-venv/bin/activate
Если все прошло гладко, вы должны увидеть префикс (dbt-venv)
в каждой строке терминала.
Установка dbt-core
dbt предлагает два возможных способа взаимодействия с самим инструментом и запуска проектов — один в облаке, а другой — через интерфейс командной строки (cli). В этом руководстве мы покажем, как установить необходимые пакеты, которые позволят вам использовать dbt с вашего локального компьютера.
Поэтому первая зависимость, которую вам нужно установить, это dbt-core
. Следующая команда установит последнюю версию, доступную в PyPI:
pip install dbt-core
Если вы хотите установить конкретную версию, вам нужно будет указать ее в команде установки:
pip install dbt-core==1.3.0
После завершения установки вы можете убедиться, что она была установлена успешно, выполнив следующую команду, которая просто выведет на терминал версию dbt, установленную на вашем локальном компьютере:
dbt --version
Установка плагинов dbt для вашей платформы данных
Теперь для успешной работы dbt необходимо установить соединение с платформой данных, которую используете вы (или ваши команды). Инструмент построения данных можно распространить на любую платформу с помощью плагина-адаптера. Вы можете думать об этих плагинах как о модулях Python, которые используются dbt-core
, которые мы установили на предыдущем шаге.
dbt Labs поддерживает некоторые из своих собственных адаптеров, в то время как некоторые другие были изначально созданы (и активно поддерживаются) сообществом. Полный список доступных плагинов вы можете найти здесь. Ниже я поделюсь некоторыми инструкциями по установке для некоторых из них:
BigQuery (облачная платформа Google)
pip install dbt-bigquery
Афина
pip install dbt-athena-adapter
Postgres и AlloyDB
pip install dbt-postgres
Azure Synapse
pip install dbt-synapse
Кирпичи данных
pip install dbt-databricks
Красное смещение
pip install dbt-redshift
Снежинка
pip install dbt-snowflake
Искра
pip install dbt-spark
Следующие шаги
Теперь, когда вы успешно установили dbt-core
и необходимые адаптеры на основе используемых вами платформ данных, вы готовы создать свой первый проект dbt и профили, необходимые для взаимодействия с целевыми платформами данных. В ближайшие несколько дней я поделюсь еще несколькими уроками о том, как это сделать, поэтому не забудьте подписаться и получать уведомления, когда эти статьи выйдут!
Последние мысли
Если вы еще не пробовали инструмент построения данных, я настоятельно рекомендую вам попробовать его — есть вероятность, что вы будете поражены тем, как он поможет вашей команде свести к минимуму усилия по созданию, управлению и поддержке моделей данных.
В сегодняшнем кратком руководстве мы рассмотрели шаги, необходимые для установки установки dbt на вашем локальном компьютере. Это руководство поможет вам установить интерфейс командной строки dbt, а также необходимые адаптеры (в зависимости от предпочитаемой вами платформы данных), необходимые для создания, управления, запуска и тестирования моделей данных.
Стать участником и читать все истории на Medium. Ваш членский взнос напрямую поддерживает меня и других писателей, которых вы читаете. Вы также получите полный доступ ко всем историям на Medium.
Статьи по теме, которые вам также могут понравиться