Почему вы должны сосредоточиться на предоставлении ценности для бизнеса 📈 вместо моделей обучения 🤖

Пару недель назад я прочитал пост на форуме Reddit r/datascience, где пользователь жаловался, что текущий ландшафт данных больше ориентирован на аналитику, чем на машинное обучение. Он утверждал, что часто компании предъявляют высокие требования — некоторые даже просят докторскую степень — только для того, чтобы кандидат занимался анализом данных и бизнес-аналитикой.

Эта разглагольствования закончились тем, что пользователь пришел к выводу, что чрезмерно квалифицированных экспертов по данным неоднократно обманом заставляют соглашаться на работу по анализу данных, которую они не хотят.

Так почему же компании это делают?

Там есть уровни

Во-первых, разные организации имеют разный уровень зрелости данных:

  • «Кэрол из бухгалтерии может отправить вам свою электронную таблицу Excel, довольно большие данные, около 20 000 строк!»
  • «Это наша маркетинговая панель инструментов, мы используем ее для создания некоторых отчетов на основе данных из нашей базы данных».
  • «Мы создаем модели машинного обучения. Они делают интересные прогнозы, и мы отображаем их на нашей информационной панели».
  • «Наши модели постоянно обновляются, и их прогнозы влияют на принятие решений на каждом этапе нашего рабочего процесса»

Каждый уровень соответствует определенному стеку технологий; сочетание инструментов и методов, соответствующих бизнес-процессам компании.

Организация, которая только начала собирать и использовать данные, могла бы полностью удовлетвориться реляционной базой данных и простой информационной панелью. Не каждая компания будет искать модель ML с самого начала.

Конечно, со временем, по мере развития компании и повышения уровня зрелости данных, моделирование будет становиться все более и более актуальным.

Больше жизни, чем модели

Хорошо, но как насчет компаний, которые относительно хорошо разбираются в данных? Почему они по-прежнему требуют от экспертов по данным писать тесты для производственного кода или управлять репозиториями контейнеров?

Ну, вы, наверное, уже догадались — проекты машинного обучения требуют большего, чем просто обучение модели. Данные должны быть очищены и предварительно обработаны в надежном конвейере, модели должны быть запущены в производство, а прогнозы должны быть предоставлены конечным пользователям.

Большинство компаний не могут позволить специалисту по данным работать только над моделированием, оставаясь при этом без дела до конца проекта. Вот почему специалисты по данным также должны работать над проектированием данных, развертыванием моделей и задачами MLOps.

Большинство групп обработки данных — за исключением, может быть, отделов исследований и разработок — тратят лишь часть своего времени на создание моделей.

Кстати, это изображение, которое я использовал, взято из одной из моих любимых книг по машинному обучению; Инженерия машинного обучения Андрея Буркова

Большие Надежды

Поэтому компании ищут профессионалов, которые могут больше, чем просто обучить модель. Тогда почему существует такое несоответствие между тем, что предлагают компании, и тем, что ожидают соискатели?

Обучение науке о данных часто происходит в лабораторной среде, где наборы данных безупречно чисты, объемы проектов четко определены и где нет обслуживания конечных пользователей. Такая среда имеет смысл, если вы изучаете только статистические концепции, а не применяете свое мастерство в бизнес-среде.

Этот способ обучения распространен на онлайн-учебных курсах и университетских курсах, что приводит к тому, что многие кандидаты имеют нереалистичные ожидания относительно того, на что на самом деле похожа работа в отрасли.

Всегда добавляйте ценность

Напомним: компании имеют разные уровни зрелости данных, при этом выполняя проекты, требующие большего, чем просто обучение модели. При этом соискатели имеют совершенно другое представление о том, как будут выглядеть их повседневные обязанности.

Так как же нам восполнить этот пробел?

Важно понимать, что любой проект в области науки о данных имеет только одну цель: повышение ценности для бизнеса.

Наука о данных занимается решением проблем. Не существует такой вещи, как проблема науки о данных — есть только бизнес-задачи с решениями данных.

Заинтересованным сторонам вашего проекта, связанным с бизнесом, все равно, как вы пришли к решению. Модель, которую вы тренируете, не имеет значения. Будь то простая модель бизнес-правил или сложная нейронная сеть, единственное, что имеет значение, — это то, как ваше решение улучшает бизнес-процессы. Добавление этого значения важно.

Поэтому сосредоточьтесь на том, чтобы найти ценность в предоставлении ценности, будь то создание информационной панели для менее зрелой компании с данными или написание конечных точек API для развертывания уже созданной модели.

TL;DR

Это не ловушка.

Работа в этой отрасли заключается в создании ценности для заинтересованных сторон путем решения проблем (с использованием данных).

Для некоторых задач решением будет создание информационной панели для визуализации данных, в то время как для других решений потребуются более сложные модели. Он различается в зависимости от уровня зрелости и проекта по науке о данных.

Конечно, иногда университетские профессора и онлайн-курсы могут создать впечатление, что все, что вы делаете как специалист по данным, — это обучаете модели, но навыки, которые они преподают, по-прежнему имеют решающее значение.

Возможно, вам не нужно строить нейронную сеть каждый месяц, но когда вы это делаете, вам лучше знать, как это сделать.

Удалось выстрадать это? Ознакомьтесь с другими моими статьями о машинном обучении и консультировании: