Я работаю в стартапе по наставничеству в области науки о данных и обнаружил, что есть один совет, который я снова и снова даю начинающим подопечным. И это действительно не то, чего я ожидал.

Вместо того, чтобы предлагать новую библиотеку или инструмент, или какой-то лайфхак для резюме, я рекомендую им сначала подумать о том, каким специалистом по данным они хотят быть.

Причина, по которой это важно, заключается в том, что наука о данных не является единой четко определенной областью, и компании нанимают не универсальных, мастеров на все руки «специалистов по данным», а людей с очень специализированными наборами навыков.

Чтобы понять почему, просто представьте, что вы — компания, пытающаяся нанять специалиста по данным. Вы почти наверняка имеете в виду довольно четко определенную проблему, с которой вам нужна помощь, и эта проблема потребует определенных технических ноу-хау и специальных знаний. Например, некоторые компании применяют простые модели к большим наборам данных, некоторые применяют сложные модели к небольшим, некоторым необходимо обучать свои модели на лету, а некоторые вообще не используют (обычные) модели.

Каждый из них требует совершенно другого набора навыков, поэтому особенно странно, что советы, которые получают начинающие специалисты по данным, имеют тенденцию быть настолько общими: «научитесь использовать Python, создайте несколько проектов классификации/регрессии/кластеризации и начните подавать заявки на работу». ».

Те из нас, кто работает в отрасли, несут большую вину за это. Мы склонны валить слишком много вещей в корзину «науки о данных» в случайных разговорах, сообщениях в блогах и презентациях. Создаете надежный конвейер данных для производства? Это «проблема науки о данных». Изобретаете новый вид нейронной сети? Это «проблема науки о данных».

Это нехорошо, потому что это приводит к тому, что начинающие специалисты по данным теряют внимание к конкретным классам проблем и вместо этого становятся мастерами на все руки — что может затруднить получение внимания или прорыв на рынке, который уже насыщен универсалами.

Но трудно не стать универсалом, если вы не знаете, на каких общих классах проблем вы могли бы специализироваться в первую очередь. Вот почему я составил список из пяти классов задач, которые часто объединяют под заголовком «наука о данных»:

1. Инженер данных

Описание работы. Вы будете управлять потоками данных для компаний, которые работают с большими объемами данных. Это означает, что ваши данные эффективно собираются и извлекаются из источника, когда это необходимо, очищаются и предварительно обрабатываются.

Почему это важно. Если вы когда-либо работали только с относительно небольшими (‹5 ГБ) наборами данных, хранящимися в файлах .csv или .txt, вам может быть трудно понять, почему существуют люди, полностью время работы это построить и поддерживать конвейеры данных. Вот несколько причин: 1) 50-гигабайтный набор данных не поместится в оперативной памяти вашего компьютера, поэтому вам, как правило, нужны другие способы передать его в вашу модель, и 2) для обработки такого большого количества данных может потребоваться смехотворное количество времени. , и часто приходится хранить избыточно. Управление этим хранилищем требует специальных технических ноу-хау.

Требования.Технологии, с которыми вы будете работать, включают Apache Spark, Hadoop и/или Hive, а также Kafka. Скорее всего, вам понадобится прочная основа в SQL.

Вопросы, с которыми вы будете иметь дело, звучат примерно так:

→ «Как построить пайплайн, способный обрабатывать 10 000 запросов в минуту?»

→ «Как я могу очистить этот набор данных, не загружая его весь в оперативную память?»

2. Аналитик данных

Описание работы.Ваша работа будет заключаться в преобразовании данных в полезные бизнес-идеи. Вы часто будете посредником между техническими командами и командами по бизнес-стратегии, продажам или маркетингу. Визуализация данных станет важной частью вашей повседневной работы.

Почему это важно.Техническим специалистам часто трудно понять, почему аналитики данных так важны, но они действительно важны. Кто-то должен преобразовать обученную и протестированную модель и множество пользовательских данных в удобоваримом формате, чтобы на их основе можно было разрабатывать бизнес-стратегии. Аналитики данных помогают убедиться, что команды специалистов по обработке и анализу данных не тратят свое время на решение проблем, которые не приносят пользы для бизнеса.

Требования.Технологии, с которыми вы будете работать, включают Python, SQL, Tableau и Excel. Вы также должны быть хорошим коммуникатором.

Вопросы, с которыми вы будете иметь дело, звучат так:

→ «Что способствует росту числа наших пользователей?»

→ «Как мы можем объяснить руководству, что недавнее повышение платы за пользование отпугивает людей?»

3. Специалист по данным

Описание работы. Ваша работа будет заключаться в очистке и изучении наборов данных, а также в составлении прогнозов, которые принесут пользу бизнесу. Ваша повседневная деятельность будет включать в себя обучение и оптимизацию моделей, а также часто их развертывание в рабочей среде.

Почему это важно. Когда у вас есть куча данных, которые слишком велики для человека, чтобы их анализировать, и слишком ценны, чтобы их можно было игнорировать, вам нужен какой-то способ извлечь из них удобоваримую информацию. Это основная работа специалиста по данным: преобразовывать наборы данных в удобоваримые выводы.

Требования.Технологии, с которыми вы будете работать, включают Python, scikit-learn, Pandas, SQL и, возможно, Flask, Spark и/или TensorFlow/PyTorch. Некоторые позиции в науке о данных носят чисто технический характер, но большинство из них потребует от вас некоторого делового чутья, чтобы в конечном итоге вы не решили проблемы, которых нет ни у кого.

Вопросы, с которыми вы будете иметь дело, звучат так:

→ «Сколько различных типов пользователей у нас есть на самом деле?»

→ «Можем ли мы построить модель, чтобы предсказать, какие продукты будут продаваться тем или иным пользователям?»

4. Инженер по машинному обучению

Описание работы.Ваша работа будет заключаться в создании, оптимизации и развертывании моделей машинного обучения в рабочей среде. Как правило, вы будете рассматривать модели машинного обучения как API или компоненты, которые вы будете подключать к полнофункциональному приложению или оборудованию какого-либо типа, но вас также могут попросить разработать модели самостоятельно.

Требования. Технологии, с которыми вы будете работать, включают Python, Javascript, scikit-learn, TensorFlow/PyTorch (и/или корпоративные платформы глубокого обучения) и SQL или MongoDB (обычно используются для баз данных приложений). .

Вопросы, с которыми вы будете иметь дело, звучат так:

→ «Как мне интегрировать эту модель Keras в наше приложение Javascript?»

→ «Как я могу сократить время прогнозирования и стоимость прогнозирования нашей рекомендательной системы?»

5. Исследователь машинного обучения

Описание работы.Ваша работа будет заключаться в поиске новых способов решения сложных задач в области науки о данных и глубокого обучения. Вы не будете работать с готовыми решениями, а будете создавать свои собственные.

Требования.Технологии, с которыми вы будете работать, включают Python, TensorFlow/PyTorch (и/или корпоративные платформы глубокого обучения) и SQL.

Вопросы, с которыми вы будете иметь дело, звучат так:

→ «Как повысить точность нашей модели до уровня, близкого к современному?»

→ «Поможет ли пользовательский оптимизатор сократить время обучения?»

Пять описаний должностей, которые я здесь изложил, определенно не являются единственными во всех случаях. Например, на ранней стадии стартапа специалисту по данным, возможно, придется быть инженером данных и/или аналитиком данных. Но большинство вакансий более точно попадает в одну из этих категорий, чем в другие, и чем крупнее компания, тем чаще применяются эти категории.

В целом, следует помнить, что для того, чтобы получить работу, вам, как правило, лучше создать более целенаправленный набор навыков: не изучайте TensorFlow, если хотите стать аналитиком данных, и не отдавайте приоритет изучению Pyspark, если вы хочу стать исследователем машинного обучения.

Вместо этого подумайте о той ценности, которую вы хотите помочь компаниям создать, и научитесь создавать эту ценность. Это, более чем что-либо другое, лучший способ войти в дверь.

статья впервые появилась здесь

Джереми Харрис

Соучредитель SharpestMinds (наставничество от старших специалистов по данным бесплатно, пока вы не получите работу) | Квантовая механика | ИИ | Философия | Короткий биос.