Ожидания против реальности - один месяц работы аналитиком данных в крупной компании, занимающейся обработкой данных

Ух ты, время летит незаметно. Точно так же я официально прошел месяц в моей новой должности, работая дипломированным аналитиком данных здесь, в городе Мельбурн, Австралия.

И что может быть лучше для размышлений об этом прошедшем месяце, чем написать статью, в которой будут задокументированы уроки и наблюдения, которые я извлек из своего путешествия, и поделиться ими со всем миром.

В частности, в этой статье я хотел рассмотреть несоответствия между ожиданиями, которые у меня были при вступлении в эту роль, ожиданиями, которые в значительной степени были сформированы тем, что мне рассказали в Интернете о том, что такое работа в качестве аналитика данных, и реальностью того, что работать аналитиком данных - это на самом деле.

Я чувствовал себя обязанным поделиться своей историей, потому что, как и многие из вас, Интернет сыграл огромную роль в моем решении продолжить карьеру в этой области.

И хотя в Интернете есть множество замечательных ресурсов (обучающие видеоролики, статьи, сообщения в блогах и т. Д.), Которые охватывают технические аспекты работы аналитиком данных, есть и другие аспекты работы, которые, как я обнаружил, не часто обсуждаются и не представлены на интернет.

Если вы в настоящее время подумываете о карьере в области науки о данных, я думаю, будет справедливым, если вы точно поймете, во что вы ввязываетесь сейчас, чем потом сожалеть о том, что делаете что-то совершенно иное, чем вы изначально ожидали.

Итак, без лишних слов, это мой взгляд на то, что Интернет не говорит вам о работе в индустрии науки о данных.

1. Устные и письменные коммуникативные навыки недооцениваются.

В течение нескольких месяцев до того, как я получил предложение о работе, мое время в основном тратилось либо на онлайн-курсы, либо на личные проекты.

Хотя эти действия отлично подходят для развития вашего понимания рабочего процесса, лежащего в основе проекта по науке о данных, а также для улучшения вашей способности кодировать, им не хватает одного критического компонента: сотрудничества.

Видите ли, когда я работал над своими личными проектами, я делал их все сам. Мне не нужно было ни с кем общаться, мне не нужно было докладывать своему руководителю о том, что я делаю, я буквально просто кодировал на своем ноутбуке.

Однако, когда дело доходит до индустрии, реальность далека от этого.

В реальном мире, независимо от того, являетесь ли вы инженером по обработке данных, специалистом по данным или инженером по машинному обучению, вы, скорее всего, будете работать в командной среде.

Например, в моей нынешней компании команда проекта обычно состоит из:

  • Ведущий консультант, который делегирует и управляет прогрессом команды в соответствии с графиком проекта.
  • Один или два старших аналитика, которые более опытны и способны справляться с более сложными задачами.
  • Несколько младших аналитиков вроде меня, которые все еще учатся, но хотят внести свой вклад

Как видите, работая над проектом, вы легко работаете с 4–5 другими людьми, и в какой-то момент вашу работу нужно будет проверить на предмет ошибок и получить дополнительную обратную связь.

Это когда умение общаться как в устной, так и в письменной форме становится чрезвычайно важным. В частности, зная, когда сообщить остальной команде о том, над чем вы работаете, просить о помощи, резюмировать ключевые результаты вашего анализа и, прежде всего, документировать вашу работу.

Лично мне потребовалось некоторое время, чтобы привыкнуть к этому стилю работы, так как я потратил так много времени на самостоятельную работу над проектами. Но если вы стремитесь однажды поработать в отрасли, я определенно рекомендую вам начать это делать как можно скорее.

На практике это означает выработку привычки писать комментарии во время кодирования, научиться пользоваться системами контроля версий, такими как Git, написать итоговый отчет после того, как вы закончите анализ, и так далее.

Как только вы начнете практиковать это, вы станете лучшим коммуникатором, который затем позволит вам добиться успеха в любой профессиональной среде, а не только в области науки о данных.

2. Вам не нужно знать все существующие языки программирования.

Недавно я получил электронное письмо от подписчика. Он сказал мне, что прошел несколько онлайн-курсов и довольно комфортно владеет одним или двумя языками программирования для обработки данных и машинного обучения.

Затем он продолжает свое электронное письмо, спрашивая меня, какой язык программирования ему следует выучить дальше, чтобы максимизировать свои шансы получить работу в области науки о данных.

Когда я прочитал его вопрос, мое сердце разбилось. Но я его не виню.

Очень легко, особенно для новичков, попасть в ловушку мысли, что чем больше языков программирования вы знаете, тем лучше вы получите работу. В результате многие люди оказываются в бесконечном цикле погони за новой блестящей технологией, чтобы изучить их, вместо того, чтобы начинать проект, используя уже знакомые им технологии.

Реальность такова, что большинство исследователей данных, которых я встречал до сих пор, начинали только со знания одного или двух языков программирования. В дополнение к этому, все они имеют один общий атрибут: находчивость.

Я пришел к выводу, что хороший специалист по данным - это не тот, кто знает все языки программирования, а скорее тот, кто может быстро адаптироваться к тому, что использует команда (конечно, с помощью Stack Overflow).

Не поймите меня неправильно. Я не говорю, что все технологии одинаковы. Очевидно, вам нужно принять во внимание то, что использует большинство людей в отрасли, и я рад сообщить вам прямо сейчас: Python, R и SQL.

Помимо этого, очень мало пользы от изучения других инструментов, особенно если ваша цель - получить должность аналитика данных начального уровня. Лучше потратить время на работу над проектом, а также на улучшение навыков решения проблем.

3. Не все аналитики данных одинаковы.

Нет, я не имею в виду разницу между инженером по данным, специалистом по данным и инженером по машинному обучению. В Интернете есть масса других статей и видео, которые подробно рассматривают эту тему.

Вместо этого я хотел больше сосредоточиться на разнице между аналитиком данных, работающим в консалтинге, и аналитиком данных, работающим в продукте, о чем, я думаю, меньше говорят в Интернете.

И причина, по которой я хотел обсудить это, заключается в том, что в зависимости от того, какой путь вы выберете, тип задач и обязанностей, которые вы получите, будут разными.

Например, если вам не нравится работать сверхурочно, возможно, вам больше подойдет работа с продуктом. С другой стороны, если вы увлечены работой и взаимодействием с клиентами, вам следует подумать о консультациях.

В настоящее время я работаю в сфере консалтинга, и, хотя я лично раньше не работал с продуктом, мне кажется, что я достаточно хорошо понимаю различия между ними, поговорив с менеджером по продукту всего несколько недель назад.

Вот некоторые из основных выводов этого разговора:

Консультации

  • Обращение к клиенту, много специальных запросов от клиента
  • Часы работы обычно (если не всегда) больше
  • Больше времени на презентации PowerPoint
  • Проекты охватывают больше широты, чем глубины, большее влияние на различные отрасли
  • Больше внимания уделяется практическим аспектам (то есть сможет ли мой клиент это понять?), Чем сложностям, поскольку бывают моменты, когда вам нужно общаться с нетехническими клиентами.
  • Примеры: BCG Gamma и аналитика данных в Большой четверке (Deloitte, EY, PwC и KPMG).

Продукт

  • Никаких клиентов, ваш клиент - это компания, в которой вы работаете
  • Часы более стабильны, предсказуемы
  • Проекты охватывают больше глубины, чем широты, ваша главная цель - постоянно улучшать и оптимизировать продукт.
  • Вы становитесь очень специализированными в этом продукте или отрасли, вы знаете все тонкости
  • Инструменты и технологии обычно более строгие и технические.
  • Примеры: Google, Facebook, Canva и Atlassian.

Также стоит отметить, что не существует такого понятия, как одно лучше другого. Все сводится к тому, что вы расставляете по приоритетам и что вам нравится делать больше.

Насколько я понимаю, между ними также много совпадений, что позволяет очень легко переключиться, если вы все же решите попробовать другой путь в будущем.

4. Чтобы стать специалистом по данным, необязательно изучать науку о данных.

До того, как приступить к этой роли, я много раз переживал синдром самозванца, в основном потому, что у меня не было опыта в области компьютерных наук, и я волновался, что окажусь в невыгодном положении по сравнению со всеми остальными.

Но по мере того, как я общался со все большим и большим количеством людей в моей компании, я понял, что многие люди также пришли из нетрадиционных областей. Инженерия, финансы, биоинформатика, что угодно. Люди приходят из всех слоев общества и в конечном итоге преуспевают в том, что они делают сейчас.

Как оказалось, вам не нужно изучать науку о данных, чтобы стать специалистом по данным. Что наиболее важно, у вас любопытный ум и страсть к решению проблем с использованием данных.

На самом деле научиться на работе намного проще, чем вы думаете, если вы знаете основы (базовая статистика, некоторый опыт программирования и понимаете, как обобщать данные) и хотите учиться.

Как только вы приступите к работе, вы, естественно, начнете приобретать новые навыки и, что более важно, контекстуализировать эти навыки, чтобы решить поставленные перед вами проблемы.

Короче говоря, никогда не отчаивайтесь от продолжения карьеры в области науки о данных только потому, что у вас не было степени по информатике. В наши дни наука о данных существует в той или иной форме во многих различных отраслях. Ваша степень - это еще не все.

Хорошо разбираетесь в числах и имеете некоторый уровень знаний в области программирования? У тебя есть шанс!

5. Наука о данных - это не всегда создание моделей.

Интернет имеет тенденцию восхищать индустрию науки о данных.

Потратив достаточно времени на контент, связанный с наукой о данных, в Интернете, вы неизбежно наткнетесь на такие термины, как машинное обучение, искусственный интеллект, нейронные сети и моделирование данных.

Хотя это некоторые компоненты, которые составляют науку о данных в целом, опасно попасть в ловушку, полагая, что это то, чем вы будете заниматься 100% времени на работе.

Существует несоответствие между тем, о чем обычно говорят в Интернете, и тем, что на самом деле происходит в реальной жизни. Я думаю, что тот факт, что людей побуждают говорить о вещах, которые более популярны в Интернете, для привлечения просмотров и подписчиков, иногда может привести к неточному представлению о реальности.

До сих пор, за месяц работы в моей должности, я ни разу не занимался моделированием или прогнозированием и, вероятно, не сделаю этого в обозримом будущем.

Реальность такова, особенно как аналитика данных начального уровня, большая часть вашего времени будет потрачена на поиск, проверку и очистку данных, то есть обыденную и непривлекательную часть работы аналитика данных, о которой никто не любит говорить. По иронии судьбы, именно эта приземленная и непривлекательная часть науки о данных является наиболее важной.

Видите ли, данные реального мира могут быть чрезвычайно беспорядочными, и люди часто упускают из виду количество времени и усилий, которые на самом деле требуются для преобразования необработанных данных в чистые. Выбросы, отсутствующие значения, дубликаты, несогласованные соглашения об именах, вы называете это.

Прежде чем часть данных будет готова для исследовательского анализа и моделирования, требуется немало усилий.

И я не имею в виду, что это отталкивает, но я искренне верю, что важно, чтобы вы знали об этих задачах, которые вас, скорее всего, попросят выполнить, вместо того, чтобы иметь ложное мышление, которое вы будете строить. модные, сложные модели все время.

Однако с другой стороны, я лично считаю, что выполнение этих, казалось бы, рутинных и скучных задач на самом деле хорошо, поскольку это не только учит нас ценить чистые данные, но, кроме того, помогает нам развить высокий уровень внимания к деталям, когда они появляются. для обработки данных.

Я надеюсь, что этой статье удалось пролить свет и дать лучшее представление о том, каково это работать аналитиком данных в отрасли.

Более того, я также надеюсь, что эта статья послужит приглашением к развитию должной осмотрительности, привычки и навыков, таких как использование Git и документирование кода, чтобы добиться по-настоящему успеха в карьере специалиста по науке о данных.

Если вы в настоящее время ищете работу аналитика данных или если вам интересно узнать, как я получил свою нынешнюю должность, не стесняйтесь ознакомиться с другими моими статьями ниже:





Я также активно документирую свой путь в области науки о данных на моем канале YouTube, не стесняйтесь подписываться на меня и там.



Спасибо за внимание и надеюсь увидеть вас в следующей статье!