Ландшафт инженерии данных в 2022 году.

Год за годом наблюдается обогащение отрасли разнообразными продуктами, и до сих пор развитие следует экспоненциальному графику. Каждый год нашим дата-инженерам и специалистам по данным требуется освоить различные технологии и инструменты. Эта статья расскажет нам о ландшафте инженерии данных в 2022 году. Давайте начнем с нашего первого раздела.

Прием данных

Основным мотивом приема данных является получение некоторых данных и их обработка для хранения или немедленного использования. Мы можем сказать, что прием данных — это погружение внутрь себя или поглощение чего-то из данных.

В реальном мире это слой, состоящий из потоковых технологий и сервисов SaaS, которые соединяют конвейеры между операционными системами и системами хранения данных.

Недавно мы обнаружили значительный рост в Airbyte, который помогает запустить собственный конвейер данных ETL за очень короткое время. Airbyte была основана в 2020 году, и за короткий период времени ее пользователями стали более 15 000 организаций, а ее участниками стали более 600 человек.

Содействуя развитию рынка с помощью обратного ETL, который, как мы считаем, сильно отличается от ETL, мотив обратного ETL заключается в том, чтобы поместить данные в операционные системы, и этот процесс становится полезным для рабочего процесса системы и организации.

Озера данных

Озера данных подвергаются удержанию объекта под собой. В период с 2019 по 2020 год мы заметили, что инженерам по данным стало сложнее хранить критически важные структурные данные и механизмы аналитики вместе.

Повышение сложности заставило нас разделить озера данных и механизмы аналитики. Таким образом, в основных моментах организации хранят объекты в озерах данных и создают различные базы данных для оптимизации и анализа данных.

Такие методы инженерии данных и аналитики имеют разные причины для внедрения в отрасли. Одной из распространенных причин является соображения стоимости. По мере увеличения размера данных стоимость анализа данных в озерах данных, таких как снежинка и BigQuery, также увеличивается. Таким образом, вместо анализа данных в озерах данных управление полезными данными в небольшой системе хранения становится дешевле как с точки зрения вычислений, так и с точки зрения затрат.

Хотя известные озера данных, Databricks и Snowflake включают в себя озера данных и механизмы аналитики, мы по-прежнему можем рассматривать вашу оптимизированную версию Spark SQL в качестве механизма аналитики для анализа наиболее надежных данных в формате дельта-таблицы. С помощью Snowflake мы можем найти поддержку Iceberg в качестве внешних таблиц для своей базы данных.

Аналитика метаданных

Простым объяснением метаданных может быть «данные данных», которые объясняют характеристики данных, как резюме в книге.

В текущих сценариях организации больше внимания уделяют описательным и организационным метаданным. Будучи конкурентоспособными в этой области, организации тратят все больше и больше времени на усовершенствование своих хранилищ и вычислительных мощностей, чтобы они могли поддерживать масштабы данных.

В последние дни мы можем наблюдать основные проблемы, с которыми сталкиваются организации, связанные с анализом и управлением метаданными.

Один из наиболее эффективных способов хранения данных в озерах данных — регулярное совершенствование. Некоторые важные проекты, такие как Delta от Databricks, Onehouse от Apache Hudi и Apache iceberg от Tabular, вносят существенные изменения в отрасль, являясь проектами с открытым исходным кодом.

Т.к. крупные коммерческие структуры применяют эти проекты и мешают другим проектам влиять на рынок через свои объекты. Открытый исходный код и проекты фонда apache/Linux обеспечивают низкий уровень риска для сообщества.

Такие примеры, как хранилище метаданных Hive, заменяются форматами открытых таблиц, поскольку не все из них способны правильно использовать метаданные и хранилище метаданных. Глядя на git для данных, мы можем сказать, что каким-то образом он сохраняет свою позицию в непрерывности.

Git для данных заставляет инженеров использовать методы управления версиями, которые не поддерживают обслуживание и управление метаданными в озерах данных. С другой стороны, рост DataOps также непрерывен, что заставляет организации контролировать и управлять версиями наборов данных, сохраняя при этом аналогичные данные с течением времени. LakeFS, Census, Mozart Data и Databricks Lakehouse Platform — это один из вариантов выбора DataOps, который помогает управлять версиями данных и поддерживать рост в отрасли.

Механизм вычисления данных

В этом разделе рассказывается о том, как данные распределяются по организациям и различным процессам. Мы можем разделить этот раздел на две категории: механизм распределенных вычислений и механизм анализа данных. Существенная разница между этими категориями позволяет нам узнать, как платформы относятся к хранению данных на разных уровнях.

Распределенный вычислительный движок: вместо того, чтобы заботиться о стратегиях хранения данных. Эти движки представляют собой коды SQL, которые помогают инженерам распределять данные и в основном заботятся о языке программирования. С помощью этих данных можно хранить во многих форматах и источниках. Рэй и Даск — прекрасные примеры такого нового движка, основанного на популярном языке программирования Python. Spark сохраняет себя как лидер сценария распределенного движка.
Подсистема анализа данных.Эти подсистемы связаны с емкостью хранилища данных и вычислительными затратами. В этой категории есть множество конкурентов, таких как Snowflake, BigQuery, Redshift и Firebolt. Примерами некоторых хранилищ старой школы являются PostgreSQL и Lakehouse Databricks. Однако все они связаны с форматированием данных и производительностью механизма запросов.

Оркестровка

Как всегда, Airflow лидирует на этом рынке как продукт с открытым исходным кодом при поддержке астрономов. Приобретение Datakin сделало Astronomers более сильным, потому что теперь у него есть возможность предоставлять данные о происхождении.

Они утверждают, что, используя эту функцию, организации могут создать более безопасный и устойчивый конвейер, чем раньше. Инструмент Data lineage помогает понять природу данных и выполняет анализ традиционными способами без каких-либо внешних вмешательств.

Аналитика данных и удобство использования машинного обучения

Это просто место, где конвейерные данные будут использоваться для анализа данных и моделирования данных с использованием алгоритмов машинного обучения. Мы также можем сказать, что это место является последним местом для данных, которые будут смоделированы, потому что впоследствии MLOps будет управлять данными.

Операции машинного обучения (MLOPs)

MLOps — это набор практик, которые переводят модель от моделирования к производству. Однако в рамках этих операций мы используем различные инструменты, которые достаточно хороши для выполнения определенной задачи, но не работают, когда ожидается, что они обеспечат другие аспекты конвейера машинного обучения. Тем не менее, доступны комплексные решения для машинного обучения, а в 2022 году появятся такие инструменты и компании, как Comet, Weights & Biases, Clear.ml и Iguazio.

Также доступны некоторые другие новые инструменты, такие как Activeloop и Graviti. Это инструменты нового поколения, разработанные соответствующим образом. Способен понимать сложность данных, управление данными и сложные операции с данными.

dagsHub — это один из тех подходов, который может обеспечить решение проблемы E2E в качестве платформы с открытым исходным кодом. Это также может быть надежным подходом к получению комплексного решения.

Управление качеством модели

В рамках процессов MLOps нам нужны инструменты для управления качеством моделей на протяжении всего производственного процесса. День ото дня эти инструменты быстро растут, и Deepchheck — один из результатов этого роста. В результате, многие участники, партнеры и тяга могут быть засвидетельствованы для этого инструмента.

Каталоги, разрешения и управление

Компания любого размера понимает и работает над пространством каталога данных. Это становится принуждением конкурентов на рынке. Некоторые компании, такие как Alation и Collibra, все еще расширяют свои возможности, предлагая больше предложений, чем раньше.

BigID также пытается улучшить себя, предоставляя предложения по каталогам. Immuta также настойчиво предлагает услуги контроля доступа к данным, используя новые технологии для обеспечения совместимости с дополнительными источниками данных.

Заключительные слова

В этом году мы заметили, что ландшафт инженерии данных быстро растет во всех аспектах. Кроме того, многие участники помогают этому ландшафту расти, развиваясь сами. В результате в этой области можно увидеть огромное количество изменений и инноваций, которые оказывают огромное влияние на эту область.

По мере того, как размеры данных расширяются, можно наблюдать стремительное развитие различных технологий с открытым исходным кодом в каждой области данных. Инжиниринг данных — отличный пример этой быстрорастущей области, где недавно были добавлены и расширены такие технологии, как MLOps, DataOps и аналитика метаданных.

О ДСВ | Мастера науки о данных

Data Science Wizards (DSW) — это стартап в области искусственного интеллекта и науки о данных, который в первую очередь предлагает платформы, решения и услуги для использования данных в качестве стратегии с помощью решений для ИИ и анализа данных, а также консультационных услуг, чтобы помочь предприятиям принимать решения, основанные на данных. .

Флагманская платформа DSW UnifyAI — это комплексная платформа с поддержкой ИИ, позволяющая корпоративным клиентам создавать, развертывать, управлять и публиковать свои модели ИИ. UnifyAI помогает вам создать бизнес-вариант использования, используя возможности ИИ и улучшая результаты аналитики.

Свяжитесь с нами по адресу [email protected] и посетите нас на www.datasciencewizards.ai