Как работает самообслуживание аналитики, как в GitLab, как DeliverHero построил свою сеть данных с помощью BigQuery, и что вам следует знать о каталогах данных версии 2.0.

В ближайшем будущем данные станут основой каждой части нашего существования. Я собираю точки данных, чтобы помочь понять и сформировать это будущее.

Если вы хотите поддержать это, поделитесь этим в Twitter, LinkedIn или Facebook.

(1) 🔮 Группа данных GitLabs и их программа самообслуживания

Я только что наткнулся на команду данных в Gitlab. Компания Gitlab поддерживает программное обеспечение, которым лично я пользуюсь, у нее более 1000 сотрудников и около 130 миллионов долларов дохода. Конечно, мне нравится открытость GitLab в целом и точность, с которой, например, команда данных создает свою командную страницу.

Но что мне действительно нравится, так это презентация их программы самообслуживания, которая мне очень подходит для компании такого размера. Они активно создают рабочие процессы самообслуживания во всей организации, поддерживают каталог данных и помогают другим проводить собственный анализ либо на основе панели мониторинга с помощью Sisense, либо с помощью простого SQL в Snowflake. Взгляните на их программу и особенно на разделение обязанностей, которое они, кажется, выбрали, если вы находитесь на аналогичной стадии развития.

Ресурсы

(2) 🔥 Презентация Матиаса Ницше из Delivery Hero

DeliveryHero, глобальная платформа для заказа и доставки еды, недавно создала собственную сетку данных. А Матиас Ницше, вице-президент по разработке, поделился некоторыми мыслями о пути, а также об архитектуре, которую они выбрали в этой презентации с GCP.

Что мне действительно нравится, так это архитектура с центральным BigQuery. Довольно много реализаций парадигмы сетки данных на самом деле используют базу данных Google BigQuery, но это одна из первых архитектур, которая подробно описывается. Центральная база данных лучше подходит для компаний, которые не хотят все децентрализовать, например, с использованием большой сети данных на основе AWS S3. И среда GCP уже содержит несколько дополнительных строительных блоков, которые можно использовать для создания уровня инфраструктуры вокруг BigQuery для поддержки сетки данных.

Ресурсы

(3) 😍 Разница между каталогами данных и обнаружением данных

Барр Мозес написал хорошую статью, в которой отличал старые добрые каталоги данных, инструменты, в которых вы должны регистрировать свои данные, от каталогов данных нового поколения, которые поставляются с обнаружением данных. Если у вас есть каталог данных, работающий внутри вашей компании, вы можете понять, что команды на самом деле не заинтересованы поддерживать каталог в актуальном состоянии, если им приходится делать это вручную для всех наборов данных, которые они создают.

Вместо этого новый подход включает обнаружение данных, которое фокусируется на автоматизации и распределенном характере современных данных в микросервисных архитектурах и различных областях. Я рекомендую прочитать статью, чтобы понять, каков ваш текущий статус и что вам действительно может понадобиться, что, вероятно, не является тем, что команды должны регистрировать вручную.

Ресурсы

🎄 Другие новости и благодарности

Спасибо, что дочитали до этого места! Мне также было бы приятно, если бы вы поделились этим информационным бюллетенем с людьми, которым, по вашему мнению, он может быть интересен.

P.S .: Я делюсь важными вещами, а не самыми свежими. Я делюсь книгами, исследовательскими работами и инструментами. Я пытаюсь дать простой способ понять все эти вещи. Я склонен быть самоуверенным. Вы всегда можете нажать кнопку отказа от подписки!