Сколько стоит создать команду по науке о данных?

Создание высокоэффективной команды специалистов по данным с обширными навыками грамотности в данных — это огромные инвестиции. И многие компании изо всех сил пытаются найти и развить опытных специалистов по науке о данных.

Почему? Конкуренция за лучшие аналитические таланты высока, и удержать этот талант стало очень сложно и дорого — даже для домашних брендов.

Поскольку технологии развиваются с молниеносной скоростью, а данные продолжают накапливаться, становится ясно, что необходим новый подход к найму и формированию команд специалистов по обработке и анализу данных.

Чем занимается специалист по данным?

Специалисты по обработке и анализу данных занимаются обработкой больших данных; они собирают и анализируют большие наборы структурированных и неструктурированных данных. Роль специалиста по данным сочетает в себе информатику, статистику и математику. Их работа состоит в том, чтобы анализировать, обрабатывать и моделировать данные, а затем интерпретировать результаты для создания действенных планов для компаний и других организаций.

Специалист по данным часто уравновешивает как набор технических навыков, так и коммуникативные навыки. В бизнес-среде специалистам по обработке и анализу данных нужно не только разбираться в большом количестве беспорядочных данных (т. решения.

Harvard Business Review назвал специалистов по данным самой сексуальной профессией 21 века.

"Если "сексуальный" означает обладать редкими качествами, которые пользуются большим спросом, специалисты по обработке и анализу данных уже там. Их трудно и дорого нанять, а учитывая очень конкурентный рынок их услуг, их трудно удержать».

Почему спрос на специалистов по данным так высок?

У предприятий есть множество данных. В них ежедневно вливаются миллионы данных из сотен источников. И эта сумма с годами росла, и это явление во многом обусловлено успехом крупных технологических компаний, собирающих ее.

По мере развития технологий возможности сбора всех этих данных расширяются и становятся более экономичными. Это означает, что во всех отраслях существует безумное количество данных, ожидающих анализа.

Проблема в том, что существует острая нехватка навыков, чтобы справиться с растущим спросом на понимание всех этих данных. McKinsey предсказывала, что к 2024 году в США будет не хватать 250 000 специалистов по данным.

На самом деле спрос настолько высок, что даже люди, изучавшие информатику и технические программы в университетах, вынуждены занимать ответственные должности по анализу данных на рабочем месте.

Средняя стоимость команды Data Science

В сочетании с этой проблемой общей нехватки специалистов высокие ожидания в отношении заработной платы.

По данным Бюро статистики труда США, средняя зарплата специалиста по данным, работающего в США, составляет 195 000 долларов. За этим ценником стоит низкое предложение, высокий спрос и набор навыков, связанных с ролью.

Конечно, эти цифры зависят от нескольких факторов:

География
Технические навыки
Размеры организации
Промышленность
Образование

Мы хотели увидеть, как выглядит анализ затрат/выгод для Data Scientist. Итак, наша команда разобралась.

Очевидно, Калькулятор затрат/выгод ИИ

Мы создали анализ затрат и результатов (ниже), чтобы показать разницу между традиционным путем машинного обучения и машинным обучением без кода. Мы считаем полезным ссылаться на него, когда люди спрашивают нас о ценности инструментов без кода.

В нем мы берем годовую зарплату Data Scientist, DevOps Engineer и Software Engineer и разбиваем их стоимость в день и время, необходимое для выполнения задач, типичных для построения моделей машинного обучения.

Для этой разбивки предположим следующее.

Ряды данных: 100 000
Источники данных: 1
Количество моделей для сборки: 1
Количество специалистов по данным: 1
Количество инженеров DevOps: 1
Количество инженеров-программистов: 1

Наше следующее предположение касается годовой заработной платы (в долларах США):

Годовая зарплата Data Scientist: $200 000
Годовая зарплата DevOps: $120 000
Годовая зарплата инженера-программиста: 120 000 долларов США.

Все эти цифры основаны на средней заработной плате, взятой из Бюро статистики труда США.

Наконец, у нас есть то, что каждая из этих ролей делает в день, а также количество рабочих дней в календаре США. Мы получили эти цифры, усреднив количество часов, отработанных в США в год (2080 часов):

Количество рабочих дней в году (США): 260
Зарплата Data Scientist в день: $769
Зарплата DevOps в день: $462
Зарплата инженера-программиста в день: $462.

Предполагая все вышесказанное, мы разбиваем 6 рутинных задач, чтобы показать, сколько дней требуется для выполнения и какова их стоимость.

Например, давайте посмотрим, что нужно для очистки данных, одной из самых простых и коротких задач в нашем списке.

Очистка/подготовка данных — одна из важнейших частей машинного обучения. Любой специалист по данным скажет вам, что большую часть своего времени он тратит на очистку, а не на машинное обучение.

Очистка данных: время для специалиста по данным

Талант, необходимый для этой задачи, — Data Scientist. В общей сложности это занимает 7 дней и стоит чуть более 5000 долларов.

Целесообразно потратить семь дней на очистку данных — эта задача требует много ручной работы. Если компаниям нужна культура, основанная на данных, и делать точные прогнозы, им нужны правильно отформатированные и структурированные данные.

Но очистка данных часто выглядит так:

Исправление орфографических и синтаксических ошибок
Стандартизация наборов данных
Исправление ошибок, таких как пустые поля
Выявление повторяющихся точек данных
Нормализация данных
Вменение дополнительных данных
Добавляем бизнес-логику

Это очень утомительная работа. Но помните: модели лучше всего работают со структурированными данными, для очистки которых требуется время. Наличие достаточно большого набора данных необходимо для создания эффективной модели. Однако чем больше данных, тем больше вычислительной мощности и времени требуется для выполнения проекта.

Очистка данных: время в явном ИИ

В режиме Очевидно ИИ очистка данных занимает всего 2 дня.

Мы используем стандартный для отрасли подход к очистке данных, который включает в себя:

Стандартизация — проверка стандартизации ваших столбцов.
Балансировка классов — гарантирует, что ваши функции и классы не искажены и не предвзяты.
Конфиденциальность данных — проверяет, насколько ваши данные чувствительны к внешним изменениям.
Распознавание выбросов — проверяет наличие выбросов и их вероятное влияние на модель.
Статистические проверки — проверка P-значений, разреженности, дисперсии и т. д. в ваших данных.
Бизнес-логика — гарантирует, что ваши данные правильно представляют ваши ключевые показатели эффективности.
Объединение данных — объединяет данные из разных наборов данных.
Обогащение данных — создает новые столбцы.

Когда ваша команда вернется, вы сможете делать прогнозы и быстрее принимать бизнес-решения. Не говоря уже о том, что ваши специалисты по обработке данных получают больше времени для выполнения важных задач, таких как согласование с руководителями стратегических бизнес-решений.

Построение модели: время для специалиста по данным

Давайте рассмотрим еще одну рутинную задачу: построение модели машинного обучения.

Машинное обучение помогает анализировать данные и совершенствовать рабочие процессы. Чем быстрее развертываются модели, тем лучше способность принимать более обоснованные бизнес-решения теряется, если модель не может обеспечить быстрые и точные результаты на основе данных.

Если компании не могут развертывать модели в соответствии с новыми бизнес-операциями, развертывание моделей машинного обучения нерентабельно.

Талант, необходимый для этой задачи, — Data Scientist. В общей сложности на создание модели машинного обучения у них уходит около 30 дней, а стоимость — чуть более 23 000 долларов.

Однако, согласно Состоянию машинного обучения на предприятии в 2020 году компании Algorithmia, 50 % респондентов заявили, что на развертывание одной модели уходит от 8 до 90 дней, и только 14 % заявили, что могут развернуть менее чем за неделю.

Построение модели: время в очевидном ИИ

Теперь сравните эти 30 дней и 23 070 долларов со временем и стоимостью Очевидного ИИ.

На нашей платформе точная и эффективная модель машинного обучения создается за секунды. В эти секунды многое происходит за кулисами.

В это время, Очевидно, ИИ проводит набор данных через заключительные этапы предварительной обработки и обучает несколько моделей. Серверная часть будет запускать различные комбинации гиперпараметров самых эффективных алгоритмов. По сути, это означает пробовать несколько алгоритмов с разными настройками, смешивать и сопоставлять их, что приводит к одновременному запуску более 10000 алгоритмов, чтобы найти тот, который работает лучше всего.

От 30 дней до считанных секунд специалисты по данным (да и вообще все, поскольку инструменты без кода демократизируют возможности предиктивной аналитики) имеют обученную модель, готовую генерировать прогнозные отчеты за долю времени, которое потребовалось бы при построении с использованием традиционный код.

Решение проблемы спроса и предложения специалистов по данным

Реальность такова, что ни один, ни даже два специалиста по данным не могут охватить все основы. И ожидать их не стоит. Но прогресс больших данных не показывает никаких признаков замедления. Если компании не хотят максимизировать свои данные из-за нехватки талантов, они рискуют отстать, поскольку конкуренты получают почти неопровержимые преимущества.

Это оказывает огромное давление на специалистов по данным.

Долгосрочное решение проблемы нехватки специалистов по данным состоит в том, чтобы демократизировать все эти знания. Предприятиям необходимо дать возможность большему количеству людей, не имеющих опыта работы с данными, применять сложное машинное обучение.

Некоторые предприятия обращаются к курсам, которые помогают сотрудникам переквалифицироваться. Другие нанимают сотрудников на такие должности, как «переводчики данных», целью которых является преодоление разрыва между бизнес-пользователями и специалистами по обработке и анализу данных.

Те, которые серьезно относятся к решению проблемы? Они активно внедряют инструменты, упрощающие процесс машинного обучения.

Специалисты по данным должны помочь компаниям ориентироваться в мире глобального сбора данных и приложений. Их роль жизненно важна для успеха организации. Такие инструменты, как машинное обучение без кода, позволяют целым командам получать данные и принимать решения, независимо от их технических навыков.

Когда эта сила демократизируется, предприятия видят сокращение узких мест, повышение эффективности принятия интеллектуальных решений, а у специалистов по данным появляется больше времени для работы над стратегическими проектами, которые продвигают бизнес вперед.

Краткое содержание

Инструменты машинного обучения без кода не заменяют специалиста по данным. Скорее, они имитируют специалиста по данным, так что даже нетехнический специалист может выполнить анализ данных всего несколькими строками кода или несколькими щелчками мыши. Эти инструменты высвобождают время, ускоряют процессы и позволяют целым командам использовать возможности машинного обучения.

Первоначально опубликовано на https://www.obviously.ai.