Что такое каталог Unity DataBricks?

Как определено в Документации DataBricks, каталог Unity — это решение DataBricks для управления данными для хранилища данных. Если вы не знаете, что такое архитектура data Lakehouse, прочтите эту статью.

Прежде чем мы углубимся в особенности каталога Unity, давайте рассмотрим, что в ближайшем будущем будет становиться все более важным для всех компаний, а именно управление данными. В конце концов, это решение для управления данными, поэтому мы должны понять, что такое управление данными, прежде чем разбираться в этом конкретном решении.

Почему управление данными?

Управление данными будет в центре внимания каждой компании в следующем десятилетии. По мере роста объемов данных и потребностей компаний в предоставлении действенной аналитической информации возникает все больше и больше трудностей, связанных с достижением результатов с помощью наших данных. Специалисты по данным хотят получить ответы на свои вопросы об их данных, и именно здесь начинается управление данными. Аналитики будут задавать такие вопросы, как «Где данные и что они означают?». Менеджеры будут задавать такие вопросы, как «У кого есть доступ к нашим отчетам и информационным панелям?» (Также имеется в виду, кто имеет доступ к нашим данным). Руководители будут задавать такие вопросы, как «Откуда взялся этот отчет?» & «Почему этот отчет важен для нас?». Как видите, одних данных недостаточно. Нам нужно знать, откуда берутся данные, что они означают, кто имеет доступ к данным, как они получают доступ к данным. Все это может и будет очень быстро усложняться, если с этим не справиться должным образом.

Что такое управление данными?

Приведенные выше вопросы касаются различных аспектов управления данными, о которых мы вскоре поговорим. Мы могли бы обобщить эти вопросы с помощью 4 подкатегорий управления данными.

  • Контроль доступа к данным

Данные должны быть доступны только тем, кто в них нуждается. Организации должны иметь возможность заблокировать свои данные и объекты, генерирующие данные, такие как файлы, таблицы и модели машинного обучения, только для тех, кто в них нуждается. К сожалению, во многих современных компаниях это не всегда так. Люди имеют доступ к данным и файлам, которые им не нужны. Это, в свою очередь, не позволяет специалистам по данным сосредоточиться на предоставлении действенной информации. Гораздо больше времени и усилий уходит на управление активами данных, что приводит к потере денег.

  • Аудит доступа к данным

Организации должны не только знать, кто имеет доступ к их данным, но и понимать, как используются их данные. Опять же, когда многие люди имеют доступ к одному и тому же источнику данных, какова цель доступа к таким данным? Несколько человек создают один и тот же отчет? По мере того, как вы становитесь ближе к своим данным и формируете владельцев данных в организации, владельцы данных захотят знать, почему и как используются их данные.

  • Происхождение данных

Происхождение данных — это путешествие, которое ваши данные проходят от своего происхождения по мере их перемещения по вашим конвейерам. Происхождение данных позволяет организации захватить восходящие источники и последующие потребители. Благодаря происхождению данных организации могут лучше понять свои процессы данных и, в свою очередь, оценить, как улучшить такие процессы данных. Таким образом, это позволяет лучше понять данные для аналитиков данных, специалистов по данным и инженеров данных.

  • Обнаружение данных

Если вы когда-либо работали с данными, вы знаете, что поиск данных — это непростая задача. Каждое хорошее решение для управления данными должно иметь способ легкого поиска ваших активов данных, чтобы не только искать местоположение ваших данных, но и понимать, что означают ваши данные (метаданные). Это значительно облегчит работу аналитиков данных и специалистов по данным.

Что такое каталог Unity?

Было много проблем, связанных с объединением данных с архитектурой хранилища данных и озера данных. Управление данными из обеих систем сложно и требует много времени. Цель Unity Catalog — уменьшить такую ​​сложность и немного облегчить жизнь администраторам и распорядителям данных. В рамках платформы DataBricks Data Lakehouse компания DataBricks создала централизованный центр для администрирования и защиты ваших данных, а также для аудита ваших данных. Они стремятся ответить на требования управления данными в следующем десятилетии, используя архитектуру хранилища данных. Это цель каталога Unity.

С помощью каталога Unity администраторы данных и распорядители данных управляют пользователями и их доступом к данным централизованно во всех своих рабочих областях в учетной записи DataBricks.

Некоторые ключевые особенности каталога Unity:

  • Определи один раз, защити везде

Благодаря централизованному рабочему пространству каталога Unity можно легко администрировать политики данных в одном месте, которые будут применяться ко всем рабочим пространствам и пользователям.

  • Модель безопасности, соответствующая стандартам

Я немного изучил их модель безопасности, и ее очень просто понять. Вот небольшой, но знакомый фрагмент кода о том, как предоставить доступ к данным пользователю данных в каталоге Unity:

GRANT SELECT ON TABLE DATA TO ACCOUNT;
  • Встроенный аудит

Каталог Unity автоматически записывает журналы аудита на уровне пользователя, в которых фиксируется доступ к вашим данным.

Это всего лишь обзор Data Governance & Unity Catalog, но я надеюсь, что он был хорошим. Если вы хотите узнать больше, я настоятельно рекомендую пройти обучение в DataBricks Academy и ознакомиться с документацией по DataBricks, поскольку большая часть моих знаний получена из двух упомянутых выше ресурсов. Надеюсь, это было информативно!

Использованная литература:

Академия DataBricks

Документация DataBricks