«Выживает не сильнейший из видов и не самый умный, но тот, кто лучше всех реагирует на изменения» - Чарльз Дарвин

Осмысление данных имеет долгую историю. Когда мы, люди, стали осознавать окружающую среду, мы начали проектировать системы, чтобы лучше понимать данные, и эти системы спроектировали нас, создавая таким образом цикл обратной связи. Например, мы разработали науку астрологию, чтобы разобраться в космосе, а астрология спроектировала нас, делая прогнозы о наших жизненных событиях и, таким образом, формируя наши действия.

Наука о данных, как область, возникла для систематического и научного осмысления данных. Хотя наука о данных - не новая профессия, за последние 50 лет она значительно изменилась за счет улучшения возможностей хранения данных для хранения больших объемов данных и экспоненциального роста вычислительной мощности, причем по доступной цене. В области науки о данных произошло три крупных эволюционных скачка, два из которых уже произошли, а один находится на ранней стадии, что привело к появлению трех поколений специалистов по анализу данных. Давайте подробно рассмотрим характеристики этих трех поколений.

Data Scientist 1.0

Наука о данных возникла как профессия с восстанием хранилищ данных, где данные о клиентах и ​​бизнес-процессах (транзакциях) хранились в централизованном месте, таком как EDW (Enterprise Data Warehouse). Анализ этих данных обеспечил объективное и глубокое понимание важных бизнес-процессов, лежащих в основе бизнес-аналитики (BI). Первые исследователи данных занимались преобразованием и запросом собранных данных с помощью инструментов ETL и BI. Они помогали менеджерам в процессах принятия решений, предоставляя основанное на фактах понимание, полученное из данных. По большей части их анализ можно разделить на описательный (что произошло) и диагностический (почему что-то произошло). [1]

Хотя идеи, извлеченные Data Scientist 1.0, были мощными, они не привели к истинным действиям, поскольку анализ касался только того, что происходило в прошлом, и не давал никаких прогнозов относительно будущего.

Data Scientist 2.0

С появлением больших данных и интеллектуальных технологий в последнее десятилетие произошла эволюция Data Scientist 1.0 до Data Scientist 2.0 и появление инженеров по данным. Специалисты по обработке данных больше не просто анализировали данные и создавали отчеты, а начали делать прогнозы с помощью машинного обучения. Благодаря тому, что инженеры по обработке данных создают прочную основу, предоставляя чистые и преобразованные данные, специалисты по данным 2.0 проложили мост в будущее, сделав прогнозы, которые казались не чем иным, как волшебством.

Хотя специалисты по данным 2.0 смогли использовать возможности прогнозирования на основе данных, им потребовалась помощь инженеров по обработке данных, чтобы вернуть эту мощность в сеть. Коду, написанному специалистами по данным, не хватало производственной мощности, эффективности и качества, и для его развертывания потребовались значительные усилия со стороны инженеров по данным. Таким образом, тщательно продуманные модели Data Scientists часто заканчивались доказательством концепций (POC) без какой-либо реальной реализации.

Data Scientist 3.0

Согласно закону Мура, рост вычислений происходит экспоненциально. Этот экспоненциальный рост вычислений приводит к появлению таких экспоненциальных технологий, как искусственный интеллект (AI), дополненная и виртуальная реальность (AR, VR), цифровая биология, нанотехнологии и автономные транспортные средства. Этот рост экспоненциальных технологий снова требует эволюции роли Data Scientist - обновления с 2.0 до 3.0. Новое поколение специалистов по данным стирает разрыв между специалистом по анализу данных и инженером по данным.

По сути, способность адаптироваться к любым изменениям требует нового набора навыков. То же самое и с этим изменением. Вот некоторые из навыков, которые, по нашему мнению, необходимы для этой эволюции: [2]:

· Навыки инженерии данных - специалист по данным 3.0 будет обладать необходимыми навыками для написания эффективного и масштабируемого производственного кода, развертывания моделей на этапе производства и создания отличных продуктов данных.

· Навыки программной инженерии - для написания эффективных и готовых к производству кодов Data Scientist 3.0 потребуются знания в области контроля версий, основ тестирования, таких как модульное тестирование, интеграционное тестирование, системное тестирование и т. Д., Чтобы создать готовый к использованию клиент без ошибок. информационные продукты

· Навыки DevOps. Ожидается, что специалисты по данным 3.0 будут обладать ноу-хау в отношении инструментов развертывания и планировщиков заданий, а также знаниями различных сред (poc, staging, prod и т. Д.) Для создания эффективных производственных решений.

· Экспертиза в предметной области. Специалист по Data Scientist 2.0 смог создать прогнозные модели, но без должной экспертизы предметной области не смог произвести действенную информацию. Data Scientist 3.0 восполнит этот пробел, буквально войдя в шкуру практикующего специалиста по бизнесу, чтобы понять предметную область, что приведет к реальным изменениям.

Заключительные комментарии

Прошли те времена, когда данные были просто еще одним входом в процесс принятия решений. Сегодня он буквально определяет ключевые решения в организации. От найма сотрудников до продаж и маркетинга до безопасности - Data Science используется во всех аспектах бизнеса. Широкое использование данных в организации заставляет бизнес-практиков изучать искусство науки о данных. Мы верим, что в следующие 10 лет будет еще одна волна, которая нарушит океан науки о данных. Этот сбой может потребовать от бизнес-практиков изучения тонкостей науки о данных, поэтому роль Data Scientists в том виде, в котором мы ее знаем сегодня, в оказании помощи менеджерам в принятии решений, может не существовать отдельно. Благодаря технологиям, упрощающим науку о данных за счет автоматизации большинства промежуточных процессов, специалисты по анализу данных следующего уровня будут действовать не только в качестве связующего звена, но и представлять собой всю сеть, то есть все этапы создания продукта данных на основе сбора данных. к очистке данных к анализу данных, к прогнозированию, к развертыванию, к стимулированию действий на основе аналитических данных, будет заниматься специалистом по данным следующего поколения. Из трех поколений Data Scientist 3.0 будет наиболее восприимчивым к этому изменению, поскольку они будут обладать многими необходимыми навыками и, следовательно, наиболее приспособлены к тому, чтобы пережить это изменение.

Вы готовы к обновлению версии? Посредством серии статей мы поможем вам приобрести навыки, необходимые для того, чтобы стать специалистом по Data Scientist 3.0. Продолжайте искать это место, чтобы обновить свою систему.

Использованная литература:

1. https://towardsdatascience.com/the-third-wave-data-scientist-1421df7433c9 Доминика Хайца

2. https://towardsdatascience.com/the-evolution-of-analytics-with-data-8b9908deadd7 Дипеш Наир

3. https://www.gregverdino.com/everything-is-exponential/ Грег Вердиньо