"Часы работы"

6 фактов о науке о данных, о которых работодатели не хотят, чтобы вы знали

Но вы обязательно должны о них знать

Вступление

Из-за поддержки, которую я получил от моих более анекдотических статей, я вернулся с другой.

На этот раз я хотел пролить свет на темную сторону работы специалиста по данным. Эта статья не предназначена для того, чтобы вас обескуражить, но, как и в любой другой работе, наука о данных как карьера имеет свои недостатки. Я считаю важным, чтобы вы знали об этих вещах, чтобы, когда вы сталкиваетесь с ними в своей жизни, он не сбивал вас, как грузовик (как это случилось со мной!).

И в зависимости от вашей личности и интересов, вы можете вообще не найти ни одного из этих недостатков, и это хорошо! Итак, с учетом сказанного, вот 6 фактов о науке о данных, о которых работодатели не хотят, чтобы вы знали.

1. Расплывчатый термин, например «наука о данных», означает расплывчатые обязанности.

Чем больше вы читаете о науке о данных, тем лучше понимаете, насколько обширна наука о данных. Фактически, он настолько широк, что есть статьи, посвященные различным типам вакансий в области науки о данных (специалист по анализу данных, специалист по принятию решений, ученый-исследователь, ученый-прикладник, инженер по данным, специалист по данным… вы поняли).

Кроме того, поскольку это многопрофильная область, термин «наука о данных» охватывает широкий спектр навыков, которые, скорее всего, больше, чем вы сможете усовершенствовать за свою жизнь.

Поэтому помните об этом на протяжении всего пути к науке о данных ...

  1. Будьте непредвзяты и постарайтесь не зацикливаться на гламурных аспектах науки о данных. Например, если вы обнаружите, что запрашиваете таблицы или работаете над архитектурой данных вместо работы над моделями машинного обучения, не расстраивайтесь. Любой навык, связанный с данными, является ценным навыком, который, скорее всего, пригодится в будущем!
  2. Как и в первом пункте, в науке о данных нет фиксированного пути. Таким образом, пользуйтесь любыми возможностями и извлекайте из них максимум уроков. Чем больше опыта вы получите, тем больше у вас будет выбора в будущем.
  3. И в качестве последнего всеобъемлющего заявления постарайтесь не устанавливать таких строгих ожиданий в отношении того, что вы хотите делать, до тех пор, пока вы не приобретете достаточно опыта и знаний, чтобы уметь это делать. Нищие не могут выбирать!

TL; DR: проявляйте непредвзятость в своем путешествии по науке о данных. Речь пойдет не только о создании моделей.

2. Скорее всего, вы будете использовать SQL гораздо больше, чем думаете.

Когда я только начинал свою карьеру, я всегда думал, что SQL - это навык, который используют только аналитики данных. И поскольку изначально у меня было такое мышление, я никогда не ценил свои развитые знания в SQL.

Вы никогда не должны думать об SQL таким образом!

Если вы работаете в роли, связанной с данными, независимо от того, занимаетесь ли вы наукой о данных или нет, SQL никогда не оставит вас.

Как специалисту по данным, вам понадобятся данные, если вы хотите построить модели машинного обучения, а это значит, что вам придется либо запрашивать данные, либо создавать конвейеры, если данных еще не существует. И чрезвычайно важно, чтобы вы хорошо знали SQL, чтобы ваши данные были надежными и масштабируемыми.

TL; DR: SQL всегда будет вашим лучшим другом, поэтому убедитесь, что у вас есть время, чтобы овладеть им.

3. Данные в реальном мире более беспорядочные, чем вы можете себе представить.

Если вы когда-либо работали с данными на Kaggle, реальный мир совсем не похож на него. В Kaggle данные обычно чистые, описания предоставляются для каждой таблицы, а имена каждого столбца и функций довольно интуитивно понятны.

В реальном мире дело обстоит иначе. У вас не только вряд ли будет что-либо из перечисленных выше, но и у вас, вероятно, не будет надежных данных для начала.

Я написал статью 10 раз, когда мне приходилось работать с действительно беспорядочными данными, но просто чтобы привести пару примеров:

  • Работа с категориями, написанными по-разному, например США, США, США, Соединенные Штаты Америки.
  • Работа с данными, в которых нарушена логика. Примером может служить запись, показывающая, что данный пользователь дважды удалил одно и то же приложение, не переустанавливая его в промежутках между…
  • Работа с противоречивыми данными. Например, одна таблица могла сказать мне, что наш ежемесячный доход составлял 50 000 долларов, а другая таблица с аналогичной информацией могла сказать, что наш ежемесячный доход составлял 50 105 долларов.

TL; DR: большая часть вашего времени будет потрачена на очистку данных. Маловероятно, что у вас сразу получится заняться моделированием.

4. Большая часть времени уходит на понимание стоящей бизнес-проблемы.

Нравится вам это или нет, но специалист по обработке данных - это во многом бизнес-аналитик. Почему? Потому что вам нужно иметь полное представление о предметной области, в которой вы работаете, и о текущей бизнес-проблеме. Без этого вы упустите ключевые взаимосвязи, предположения и переменные, которые могли бы стать разницей между моделью с точностью 65% и моделью с точностью 95%.

Например, если вы специалист по обработке данных в отделе маркетинга, важно, чтобы вы полностью понимали каждый тип маркетингового канала, какую цель он выполняет, где он находится в маркетинговой воронке, какой тип пользователей он обычно привлекает и какие показатели используются для оценки данного канала.

Например, торговые выставки обычно намного дороже, чем партнерский маркетинг (CAC выше). Однако LTV клиентов, привлеченных с выставок, также выше. Если бы вы построили модель, ориентированную только на CAC, вы, возможно, предоставили неполную информацию, что привело бы к прекращению маркетинга через торговые выставки.

TL; DR: значительную часть времени следует потратить на понимание бизнес-проблемы и области, в которой вы работаете, прежде чем приступить к построению любой модели.

5. От вас не ждут, что вы будете знать все инструменты, но чем больше вы знаете, тем лучше.

В предыдущей статье я сказал, что лучше сосредоточиться на нескольких инструментах и ​​хорошо в них разбираться. Я по-прежнему придерживаюсь этого утверждения, но печальная реальность такова, что ваш работодатель, скорее всего, ожидает, что вы будете развиваться и изучать больше инструментов по мере вашего продвижения.

Вы обязательно должны хорошо знать свои основные инструменты. Это означает Python, SQL и Git, а также несколько библиотек Python, включая Pandas, NumPy, scipy, scikit-learn и т. Д.

Однако не удивляйтесь, если ваши работодатели предложат вам новые инструменты для обучения в кратчайшие сроки, такие как Airflow, Hadoop, Spark, TensorFlow, Kubernetes, список можно продолжать.

Кроме того, если вы поменяете работодателя в своей карьере, вам, вероятно, придется изучить новый набор инструментов, потому что у каждой компании есть свой собственный желаемый технологический стек, поэтому будьте осторожны при выборе новых работодателей.

TL; DR: обучение никогда не заканчивается. Если вам это не нравится, анализ данных может не для вас.

6. Коммуникативные навыки - ваш лучший друг.

Это больше для тех, кто думает, что работа в области науки о данных означает, что вы можете прятаться в комнате с моделями зданий весь день. Независимо от того, что вам говорит какой-либо работодатель, даже если он говорит, что вы можете работать дома 24/7 или работать в команде, вам необходимо будет сотрудничать и общаться с другими заинтересованными сторонами.

Даже если вы работаете в команде, вам нужно сообщить высшему руководству о выполняемой вами работе и о том, какое ощутимое влияние на бизнес она оказывает. Вам также, вероятно, придется сотрудничать с другими командами и бизнес-аналитиками, чтобы получить те знания в предметной области, о которых мы говорили несколько ранее.

TL; DR: наука о данных требует гораздо большего взаимодействия, чем вы думаете, и это помогает быть успешным специалистом по данным.

Спасибо за прочтение!

Прочитав это, я надеюсь, что смог дать вам несколько (больше) идей и полезных советов, которые помогут избавиться от некоторых заблуждений, которые у вас есть, а также сделают ваше путешествие по науке о данных намного более плавным, чем мое!

Я получил действительно хорошие отзывы о своих более самоуверенных статьях по науке о данных, поэтому написал это. Как всегда, отнеситесь к этому с недоверием, если вы не согласны с чем-либо, что я сказал. Но если вам понравилось, дайте мне знать, о чем еще вы бы хотели, чтобы я написал.

Я желаю вам, ребята, всего наилучшего в вашем путешествии по науке о данных, как всегда!

Не знаете, что читать дальше? Я подобрала для вас другую статью:



Теренс Шин