Инженерия данных

Почему сейчас популярна Data Engineering?

Подробное описание тенденций в области инженерии данных и их важности.

Data Engineering - самая« настоящая работа в 21 веке». Если вы следите за индустрией данных и с энтузиазмом относитесь к этой области, возможно, вы видели или слышали термин Data Engineering или сексуальное название Data Engineer, появляющиеся повсюду.

Если вам интересно, почему, и вы хотите углубиться в эту тему, вы попали в нужное место!

Мои знания ограничены, поэтому я решил задать именно этот вопрос в сабреддите r / dataengineering, чтобы разобраться в этом феномене.

С более чем 20 информативными и полезными ответами по этому поводу ниже я попытаюсь обобщить основные идеи и дать вам общее представление о том, почему именно Data Engineering так популярна сейчас.

Простое оглавление того, что будет рассмотрено:

- Trend of Data Engineering visualized
- The DNA of Data Engineering
- Why the name Data Engineer
- Factors of its popularity 
- Importance of DE
- Resources and Deep Dive

Визуализация тенденции Data Engineering

Во-первых, чтобы проанализировать эту тенденцию, давайте проведем небольшое исследование терминов Data Engineering и Data Engineer с помощью Google Trends и Google Ngram Viewer.

Google Trends

Как профессия - {profession: “Data Engineer”}, мы получаем такую ​​тенденцию:

Мы можем наблюдать, что этот термин начал расти примерно в 2016 году и с тех пор продолжает расти.

В качестве поискового запроса - {search_term: [“Data Engineer”, "Data Engineering"} мы получаем такую ​​тенденцию:

Интересно, что в 2004 году произошел всплеск инженерии данных, который утих и остался на прежнем уровне, а затем начал расти примерно в 2016 году.

Google Ngrams

Поиск в Google Ngrams с 1990 по 2019 год:

Мы видим, что в 90-х годах у нас был небольшой всплеск и огромная точка перегиба в 2010 году, примерно в то время, когда началась ажиотаж в области науки о данных.

ДНК инженерии данных

Теперь, когда эта тенденция визуализирована, вы можете спросить, откуда взялся этот огромный приток? Работа не появляется из воздуха.

По правде говоря, инженерия данных существует уже лет десять или два, по крайней мере, аналогичные ее аспекты.

Все началось с систем управления базами данных IBM в 70-х годах и концепции баз данных, ETL, которая затем превратилась в «информационную инженерию», описывающую проектирование баз данных в 80-х годах. Затем в середине 90-х - нулевых начался интернет-бум, который привел к появлению «больших данных».

Все эти созданные роли, которые работают с данными, такие как разработчики ETL, разработчики баз данных, администраторы баз данных (DBA), разработчики больших данных, разработчики бизнес-аналитики и т. Д., Имели задачи, аналогичные задачам инженеров по данным, которые мы видим сегодня.

Теперь вы немного знакомы с историей Data Engineer; прежде чем мы перейдем к факторам, давайте спросим, ​​почему это название.

Почему имя Data Engineer?

Я не мог точно сказать, кто именно придумал термин «инженер по данным», но что касается того, почему он был назван именно так, для этого есть две возможные причины.

Техническая причина: большая часть названия связана с сочетанием традиционных ролей данных, таких как администраторы баз данных или разработчики ETL, и инженерии программного обеспечения. (из-за принятия Python и Java / Scala). Таким образом, отрасль в конечном итоге согласовала название Инженер данных, которое охватывает как данные, так и инженерный аспект роли.

Маркетинговая причина: термин «машинное обучение» когда-то был «когнитивными вычислениями», но IBM изменила его на более привлекательное название, чтобы привлечь клиентов и сотрудников. То же самое произошло и с титулом «специалист по данным», который когда-то назывался «программист-статистик». Таким образом, вместо таких терминов, как «разработчик хранилища данных», «облачный инженер», «разработчик больших данных», вы продаете название «инженер данных» - должность, которая звучит сексуально и привлекательно.

Факторы, вызывающие эту тенденцию

Я считаю, что есть четыре основных фактора: серия событий, которые привели к развитию тенденции в области инженерии данных.

  1. Взрыв данных
  2. Шумиха по науке о данных
  3. Информационные компании и облачные сервисы
  4. Потребность в качественных данных

Взрыв данных

Массовый взрыв данных из Интернета, приложений социальных сетей и всех продуктов, генерирующих данные, породил идею использования данных для получения информации и принятия решений на ее основе.

Шумиха по науке о данных

Компании по всему миру осознали силу данных, о том, что данные - это нефть 21 века, началась ажиотаж в области науки о данных, вызвавший приток специалистов по данным - самая сексуальная работа в 21 веке.

Они боялись упустить возможность и начали нанимать специалистов по данным, чтобы они создавали новые интересные продукты, собирали аналитические данные, строили невероятные модели, чтобы делать прогнозы и т. Д.

Информационные компании и облачные сервисы

В то же время бурный рост данных и ажиотаж в области науки о данных также привели к появлению волны облачных сервисов и компаний по обработке данных, которые помогают компаниям делать такие вещи, как хранение данных, построение конвейеров данных и многое другое.

Например, компании по обработке данных, такие как Airbyte, Fivetran, DataBricks и Snowflake, а также облачные сервисы, такие как AWS и Google Cloud Platform, позволяют бизнесу эффективно работать со своими данными.

Потребность в качественных данных

Проходят годы, с тех пор как разразился ажиотаж, специалисты по данным, основная работа которых заключалась в анализе данных и разработке моделей, осознали, что им приходится иметь дело с беспорядочными данными и перемещать их.

И для этого они тратили время на сбор, очистку, хранение и т. Д., Что включало написание конвейеров данных, которые превратились во множество задач CI / CD и DevOps из-за таких технологий, как облако.

Затем компании осознали, что их специалисты по обработке данных эффективны только в том случае, если у них есть качественные данные, с которыми можно работать. Таким образом, потребность в инженерах данных резко возросла. Их основная ответственность заключалась в подготовке качественных данных для специалистов по данным.

Теперь специалистам по данным не нужно тратить 80% своего времени на очистку данных, а 100% времени приходится тратить на то, за что им платили.

Инженеры и специалисты по данным

На мой пост на Reddit есть два хороших ответа, которыми я закончу эту статью, которые дают аналогию того, как Data Engineers необходимы для эффективной работы специалистов по данным.

Инжиниринг данных - это умножитель сил, при котором многие сотрудники организации могут использовать работу по загрузке и подготовке данных, и эта работа может масштабироваться. Это позволяет более эффективно выполнять свою работу специалистам, работающим в нижнем отделе информационных технологий, например аналитикам / ученым и разработчикам бизнес-аналитики.

Думайте об этом как о человеке / команде, которые привозят всю еду на склад и распределяют ее для покупки. Вместо того, чтобы ходить на множество небольших рынков, человек может пойти в одно место, чтобы получить все, что ему нужно, сэкономить время и получить лучшее качество. Инженеры по обработке данных должны выполнять такую ​​работу.

Первым нанять специалиста по обработке данных - все равно что нанять повара, но не найти эффективного способа получить ингредиенты. Они будут тратить больше времени на сбор ингредиентов. Если вы нанимаете дистрибьютора, который доставит вам еду, это решит проблему путешествия, но шеф-повар все равно должен приготовить еду. Инженер-аналитик (или разработчик SQL или разработчик бизнес-аналитики, если хотите) может помочь приготовить еду, как су-повар. В этот момент повар (ученый) мог бы потратить большую часть своего времени на приготовление блюд, а не на их приготовление. В конце концов, это проблема цепочки поставок. Люди понимают, что у них проблемы с ингредиентами, еще до того, как возникнут проблемы с приготовлением пищи.

- от flerkentariner

Data Science и Data Engineering - братья и сестры, но очень разные. Если вы хорошо разбираетесь в одном, это не делает вас подходящим для другого ... Я обычно объяснял это на своей последней работе так: «Ученые - это те, кто выбирает место падения, а инженеры - те, кто выпрыгивает из самолета». Мы нужны друг другу.

- от el_tacomonkey

Подробнее по этой теме

Если вам эта тема показалась интересной и вы хотите погрузиться в нее глубже, ознакомьтесь с этими тремя статьями. Я также связал некоторые ресурсы по инженерии данных для тех, кому это интересно.

Глубокое погружение

Ресурсы для инженерии данных

Спасибо за чтение!

Это все для этой статьи, и я надеюсь, вы узнали что-то новое!

Если вам нравятся такие статьи, обязательно подпишитесь на Публикацию Bitgrit Data Science, чтобы узнать больше!

Bitgrit недавно объявил новый конкурс с разыгрышем $ 3000 💵:

Проблема прогнозирования вирусных твитов

Если вы когда-нибудь задумывались, почему твиты становятся вирусными, это прекрасная возможность найти ответ с помощью Data Science! Конкурс заканчивается 6 июля 2021 года, так что поторопитесь и регистрируйтесь прямо сейчас!

Если вы новичок и не знаете, с чего начать, ознакомьтесь с нашей последней статьей Использование науки о данных для прогнозирования вирусных твитов, чтобы узнать, как построить простую модель для решения этой задачи!

Понравилось то, что вы прочитали? Вот две статьи, которые могут вам понравиться.

Следите за социальными сетями Bitgrit 📱, чтобы быть в курсе выступлений и предстоящих соревнований!