Какой вы специалист по данным?

Когда я впервые начал заниматься наукой о данных, я работал в страховой отрасли, где большинство людей, занимающих аналитические должности, имеют статистический или актуарный опыт.

Работа в области науки о данных, которую я проделал, была сосредоточена на использовании методов статистического и машинного обучения для извлечения информации из данных, которые можно было бы, например, использовать для снижения затрат на претензии или улучшения премиальных цен, и это было типично для работы, выполняемой другими специалистами по обработке данных, которых я знал, кто также работал в отрасли.

Благодаря этому опыту я пришел к мнению, что наука о данных - это продвинутая форма статистики с программным компонентом.

С тех пор я сменил работу и теперь работаю в команде, где другие аналитические роли заняты людьми, имеющими опыт работы в области компьютерных наук или программирования. Работа, которую я сейчас выполняю, сосредоточена на создании моделей машинного обучения, которые можно развернуть в производственных системах для автоматизации и расширения ручных процессов.

Если бы я знал только вторую работу, то я бы рассматривал науку о данных как дисциплину, сродни информатике и разработке программного обеспечения, опирающуюся на статистическую основу.

Несмотря на то, что эти два определения науки о данных находятся на противоположных сторонах спектра, оба одинаково верны.

Континуум науки о данных

Наука о данных - это новая область, и роль специалистов по данным еще предстоит полностью определить. Но даже если наука о данных существовала веками, факт остается фактом: есть несколько профессий, которые имеют настолько узкое определение, что каждый человек, работающий в этой профессии, выполняет одни и те же задачи.

Науку о данных можно рассматривать как комбинацию статистики и информатики, и в результате можно ожидать, что роли в науке о данных будут различаться в зависимости от относительной важности каждой из этих дисциплин для конкретной позиции. Я называю целый ряд различных должностей, которые существуют под названием «специалист по данным», как континуум науки о данных.

В случае двух описанных мною выше работ по науке о данных обе являются равнозначными примерами того, что делает специалист по данным, но первая работа ближе к статистическому концу континуума науки о данных, а вторая работа ближе к компьютеру. конец науки.

Ситуация усложняется тем, что разные роли в области науки о данных также требуют разных уровней технических навыков. Например, должность старшего специалиста в области науки о данных, специализирующаяся в нишевой области, вероятно, потребует больших навыков и квалификации, чем должность универсального специалиста начального уровня.

Более того, с тех пор, как специалист по обработке данных был назван «самой сексуальной работой 21 века», произошла эпидемия людей, переименовывающих свои роли в должности специалистов по обработке данных (например, в LinkedIn), даже если это не так; и организаций, которые делают то же самое с позициями, которые они рекламируют, либо по незнанию, либо для привлечения большего числа соискателей.

Например, во время моего последнего поиска работы я наткнулся на несколько вакансий, которые я бы отнес к ролям старшего аналитика данных, рекламируемых под названием «специалист по данным». Я также наткнулся на несколько должностей, которые явно были ролями специалистов по данным, которые рекламировались под названием «аналитик данных».

Результатом этого является то, что если вы ищете роль в науке о данных, тогда вам нужно смотреть не только на название должности, но и на то, что на самом деле включает эта должность, и на уровень, на котором вы должны будете работать на этой должности. роль.

Тем не менее, если вы посмотрите достаточное количество объявлений о вакансиях для ролей, связанных с данными, начнут проявляться определенные закономерности, позволяющие идентифицировать различные типы ролей данных, независимо от должности.

Семь типов ролей данных

В период с 22 апреля 2019 года по 5 мая 2019 года я собрал объявления о вакансиях для 200 ролей, связанных с данными (то есть должности с научным сотрудником по данным (100 объявлений), аналитиком данных (40 объявлений о вакансиях), аналитиком бизнес-аналитики (20 объявлений), машинным обучающийся инженер (20 объявлений) и инженер по обработке данных (20 объявлений)) в четырех англоязычных странах (Австралия, Канада, Великобритания и США) от LinkedIn.

Я смотрел не только на вакансии с титулом «специалист по данным», чтобы учесть возможные неправильные названия и различия между работодателями в том, что именно влечет за собой работа.

Применяя кластеризацию k-средних к этим объявлениям, используя критерии выбора в качестве функций, я смог сгруппировать объявления о вакансиях в семь кластеров или типов ролей.

Характеристики каждой из этих ролей описаны ниже в порядке от наиболее распространенного до наименее распространенного:

Тип роли # 1: аналитик по отчетности и ETL

(рассмотрено 24% объявлений о вакансиях, в том числе 10% всех ролей специалистов по обработке данных)

Аналитики отчетов и ETL сосредоточены на извлечении данных и создании на их основе отчетов и / или информационных панелей, но также обычно несут ответственность за задачи администрирования базы данных / хранилища данных, такие как разработка и поддержка конвейеров ETL (извлечение, преобразование, загрузка).

Типичная должность: Аналитик данных или аналитик бизнес-аналитики (BI).

Используемые ключевые технологии: SQL и Excel.

Типичные требования к ученой степени: желательно иметь степень бакалавра компьютерных наук.

Тип роли # 2: специалист в области науки о данных

(рассмотрено 23% объявлений о вакансиях, в том числе 39% всех должностей специалистов по обработке данных)

Специалисты в области Data Science Generalists сосредотачиваются на применении машинного обучения и статистических методов для разработки моделей, решения бизнес-задач и предоставления аналитических сведений. Эти роли обычно рекламируются на среднем уровне, без каких-либо явных требований к специальным навыкам, таким как глубокое обучение или обработка естественного языка.

Типичная должность: Специалист по данным.

Используемые ключевые технологии: Python, R и SQL.

Типичные требования к ученой степени: степень по статистике, математике или информатике, в идеале - аспирантура.

Тип роли # 3: аналитик Insights

(Рассмотрено 15,5% объявлений о вакансиях, в том числе 10% всех ролей специалистов по обработке данных)

Подобно аналитикам отчетов и ETL, аналитики Insights сосредотачиваются на извлечении, обработке и анализе данных, чтобы предоставлять инсайты и создавать отчеты и / или информационные панели. Однако они обычно не несут ответственности за управление и администрирование хранилищ данных или баз данных.

Типичная должность: Аналитик или специалист по данным.

Используемые ключевые технологии: SQL, Python, Tableau, R и Excel.

Типичные требования к получению степени: желательно иметь степень бакалавра математики или статистики.

Тип роли # 4: специалист по анализу данных в сфере машинного обучения.

(рассмотрено 13% объявлений о вакансиях, в том числе 25% всех ролей специалистов по обработке данных)

Специалисты по исследованию данных машинного обучения используют методы машинного обучения для разработки и развертывания моделей, уделяя особое внимание исследованиям и разработкам, а не разработке программного обеспечения.

Типичная должность: Специалист по данным.

Используемые ключевые технологии: Python, R и Spark.

Типичные требования к ученой степени: степень в области статистики, математики или информатики, предпочтительно на уровне аспирантуры.

Тип роли # 5: инженер-программист машинного обучения

(рассмотрено 11% объявлений о вакансиях, в том числе 6% от всех должностей специалистов по обработке данных)

Как и специалисты по анализу данных ML, инженеры-программисты машинного обучения используют методы машинного обучения для разработки и развертывания моделей, но в случае инженеров-программистов машинного обучения основное внимание уделяется разработке программного обеспечения. Например, инженер-программист машинного обучения может развернуть модель, разработанную специалистом по исследованию данных машинного обучения.

Типичная должность: инженер по машинному обучению.

Используемые ключевые технологии: Python и Tensorflow.

Типичные требования к ученой степени: степень в области компьютерных наук, желательно на уровне аспирантуры.

Тип роли # 6: инженер по платформам и складам.

(рассмотрено 9% объявлений о вакансиях, в том числе 1% всех ролей специалистов по обработке данных)

Инженеры по платформам и хранилищам сосредоточены на создании конвейеров данных и работе с базами данных, хранилищами данных и платформами данных. Они имеют ограниченное участие в разработке моделей или создании аналитических данных.

Типичная должность: инженер по обработке данных.

Используемые ключевые технологии: Python, облачные вычисления, SQL и Spark.

Типичные требования к ученой степени: желательно иметь степень бакалавра компьютерных наук или инженерии.

Тип роли # 7: специалист по науке о данных

(рассмотрено 4,5% объявлений о вакансиях, в том числе 9% всех ролей специалистов по обработке данных)

Специалисты по Data Science очень похожи на Data Science Generalists, за исключением того, что специалисты по Data Science специализируются на применении машинного обучения и статистических методов для разработки моделей и т. Д. В специализированных областях искусственного интеллекта / науки о данных. Эти роли требуют продвинутых навыков в таких областях, как обработка естественного языка, большие данные, глубокое обучение или компьютерное зрение.

Типичная должность: Специалист по данным.

Используемые ключевые технологии: Python, SQL, R, Spark и облачные вычисления.

Типичные требования к ученой степени: степень в области статистики, математики или информатики, предпочтительно на уровне аспирантуры.

Эти семь типов ролей служат хорошим руководством для тех, кто пытается впервые заняться наукой о данных или выяснить, что делать дальше, исходя из текущей роли данных.

Сравнивая свою квалификацию, технические навыки и интересы с теми, которые указаны для каждого из типов ролей, вы можете легко определить, для каких типов ролей ваши текущие навыки и опыт делают вас наиболее подходящими и какие навыки и квалификацию вам необходимо приобрести, чтобы переход к другому ролевому типу.

Выбор ролей определенного типа обеспечивает более эффективную основу для поиска работы. Это увеличивает вашу вероятность успеха в приложении и означает, что вы с большей вероятностью попадете на работу, которая соответствует вашим ожиданиям.

Каким специалистом по данным вы хотите быть вы?