Viswanath RT
Заместитель директора

Прия, подающий надежды специалист по данным, была расстроена, когда на недавнем собеседовании ее засыпали вопросами, связанными с программированием. «Последние два года я работал над различными методами моделирования, но теперь мне задают вопросы о Python? Я хотела бы построить свою карьеру в науке о данных, а не в разработке приложений», — сказала она, искренне сомневаясь в своем выборе. Интервью проводил ведущий единорог в стартап-пространстве, и у нее были основания полагать, что эта практика не стала исключением. В конце концов, у ее друзей был подобный опыт в других местах.

Это обычная дилемма, с которой сталкиваются люди, которые только начинают свою карьеру. На чем следует сосредоточиться молодым специалистам по данным — на понимании нюансов алгоритмов или более быстром их применении с помощью инструментов? Некоторые ветераны видят в этом вопрос «аналитика против технологий». Тем не менее, эта статья соглашается не согласиться с этой концепцией. Мы скоро узнаем правду по мере продвижения по статье. Как построить карьеру в науке о данных?

Аналитика превратилась из застенчивого гуся десять лет назад в напористого слона. Инструменты прошлого теперь неактуальны. Некоторые из инструментов потеряли долю рынка, и их кончина достойна тематических исследований в бизнес-школах. Однако, если мы хотим предсказать его будущее или построить карьеру в этой области, из него можно извлечь несколько важных уроков.

История аналитики

Десять лет назад аналитика в основном сводилась к созданию оценочных карт рисков и разработке кампаний. Аналитические компании были построены вокруг этих услуг.

Их команды, как правило, работали над SAS, использовали статистические модели, а на выходе получали какую-то оценку — риск, склонность, отток и т. д. Его основная роль заключалась в поддержке бизнес-функций. Банки использовали различные модели, чтобы понять риски клиентов, отток клиентов и т. д. Розничные продавцы были активны в своих кампаниях в первые дни внедрения шаблонов.

А потом случилась «Бизнес-разведка». Мы увидели множество BI-инструментов, отвечающих различным потребностям бизнеса. Основное внимание уделялось различным способам эффективной визуализации. Cognos, Business Objects и т. д. были правителями дня.

Но настоящее изменение характера аналитики произошло с появлением больших данных. Итак, что изменилось с большими данными? Разве данные не собирались в таком масштабе раньше? Что такого «большого» в больших данных? Ответ заключается скорее в базовом аппаратном и программном обеспечении, которое позволяет нам разбираться в больших данных. Хотя данные (структурированные и неструктурированные) существовали некоторое время до этого, инструменты для прочесывания больших данных не были готовы.

Теперь, в своей новой роли, аналитика больше не связана только с алгоритмической сложностью. Нужна способность обращаться к масштабу. Предприятия хотели понять «рыночную ценность» этих новых больших данных. Именно здесь аналитики начали ухаживать за программированием. У кого-то могут быть лучшие модели, но они бесполезны, если вы не обрежете и не извлечете чистые данные из миллионов ГБ данных.

Это также совпало с появлением SaaS (программное обеспечение как услуга) и PaaS (платформа как услуга). Это сделало вычислительную мощность более доступной.

К настоящему времени существует множество данных, объединенных с экономичными и жизнеспособными вычислительными ресурсами для обработки этих данных. Возник естественный вопрос — что можно сделать с этими огромными данными? Можем ли мы выполнять аналитику в реальном времени? Можно ли автоматизировать алгоритмическое обучение? Можем ли мы построить модели, имитирующие человеческую логику? Вот где машинное обучение и искусственный интеллект стали более актуальными.

Что же такое машинное обучение? Ну каждому свое. В своем более узком определении он ограничивается ситуациями, в которых существует некоторый уровень обучения на основе обратной связи. Но опять же, консенсус здесь заключается в том, чтобы включить в него большинство форм аналитических методов.

В то время как для традиционной аналитики требуется базовый уровень знаний в области статистики, вы можете выполнять большую часть своих продвинутых НЛП, компьютерного зрения и т. д., не зная их деталей. Это стало возможным благодаря API-интерфейсам машинного обучения Amazon/Google. Например, десятиклассник может запустить распознавание лиц на нескольких изображениях, практически не зная аналитики. Некоторые ветераны задаются вопросом, настоящая ли это аналитика. Согласны вы с ними или нет, но они останутся.

Необходимость программирования

Представьте себе сценарий, в котором выходные данные вашей статистической модели необходимо интегрировать с ERP-системами, чтобы линейный руководитель мог использовать выходные данные или, что еще лучше, взаимодействовать с ними. Или сценарий, в котором входные данные для вашей модели оптимизации изменяются в режиме реального времени, а модель повторяется. Поскольку мы видим все больше и больше бизнес-сценариев, становится все более очевидным, что встроенные аналитические решения — это путь вперед. то, как аналитические решения взаимодействуют с более крупной экосистемой, находится в центре внимания. Здесь на помощь приходит программирование.

Чтобы аналитическое решение было масштабируемым, технология имеет решающее значение. Хотя Прия может быть потрясена этим откровением, она одна из тех, кому повезло осознать это в самом начале карьеры. Теперь у нее есть инструменты, чтобы изменить свою карьеру.