21 совет каждому специалисту по анализу данных на 2021 год

№19. Умение устанавливать ожидания сильно повлияет на то, насколько вы «успешны» в своей карьере.

В этой статье я поделюсь с вами 21 советом, который я получил от других специалистов по данным и на собственном опыте за последние несколько лет.

В зависимости от того, насколько далеко вы продвинулись в своей карьере, некоторые из этих советов определенно скажут вам больше, чем другие. Например, фраза «Найдите время для открытия и изучения новых библиотек и пакетов» может быть не столь актуальна для того, кто только начинает.

С учетом сказанного, давайте прямо сейчас погрузимся в это!

1. Самое простое решение часто оказывается лучшим решением.

Быть специалистом по обработке данных не означает, что вы должны решать все проблемы с помощью модели машинного обучения. Если для выполнения работы достаточно запроса CASE WHEN, придерживайтесь его. Если для выполнения работы достаточно линейной регрессии, не создавайте 10-слойную нейронную сеть.

У более простого решения есть много преимуществ, включая более быстрое внедрение, меньшую техническую задолженность и в целом более простую ремонтопригодность.

2. Целенаправленно выделяйте время для периодического обнаружения и изучения новых библиотек и пакетов.

Легко придерживаться того, что вам удобно, но новые инструменты создаются не просто так - они созданы, чтобы заполнить существующий пробел тем, что уже есть. Потратив время на изучение новых библиотек и пакетов, я нашел несколько невероятных инструментов, которые сэкономили мне много времени. Вот пара из них:

Gradio - это пакет Python, который позволяет создавать и развертывать веб-приложения для вашей модели машинного обучения всего за три строки кода. Он служит той же цели, что и Streamlit или Flask, но я обнаружил, что развернуть модель намного быстрее и проще.
Pandas Profiling - еще один пакет, который автоматически проводит исследовательский анализ данных и объединяет его в отчет. Я считаю это чрезвычайно полезным при работе с небольшими наборами данных. Самое приятное то, что для этого требуется всего одна строка кода!
Kedro - это инструмент рабочего процесса разработки, который позволяет создавать переносимые конвейеры машинного обучения. Он применяет передовой опыт разработки программного обеспечения к вашему коду, делая его воспроизводимым, модульным и хорошо документированным.

3. Быть эффективным - не значит торопиться с важными шагами.

Некоторые шаги просто нельзя торопить. В частности, вам следует уделить время глубокому пониманию бизнес-проблемы, которую вы пытаетесь решить, и данных, с которыми вы работаете.

Есть ряд вопросов, на которые вы должны уметь ответить, прежде чем погрузиться в модель. Вы можете ознакомиться с ними здесь.

4. Метрики, возможно, более важны, чем сама модель.

Этот момент каким-то образом связан с предыдущим в том смысле, что вы должны хорошо понимать проблему, которую пытаетесь решить. Наряду с пониманием проблемы заключается в том, чтобы выяснить, какую метрику вы пытаетесь оптимизировать, потому что, в конце концов, машинное обучение - это модное слово для статистики и оптимизации.

Например, у меня может быть модель со 100% точностью, но это бесполезно, если я пытаюсь разработать модель обнаружения аномалий!

5. Ваша работа будет настолько хороша, насколько вы способны ее передать.

Людей пугает то, чего они не понимают, и они стараются их избегать.

Вы должны уметь передавать технический жаргон и методы моделирования в манере, понятной для нетехнических специалистов. Если вы потратили время на создание отличной модели, вам следует потратить немного больше времени на то, чтобы эффективно рассказать о ней, чтобы люди могли признать ваш упорный труд!

6. Изучите основы, особенно статистику.

Наука о данных и машинное обучение - это, по сути, современная версия статистики. Если вы сначала изучите статистику, вам будет намного проще изучать концепции и алгоритмы машинного обучения.

Я создал полную 52-недельную учебную программу, первые шесть недель которой были посвящены статистике, которую вы можете проверить здесь.

7. Знайте параметры решаемой проблемы.

Лучше всего это можно объяснить на примере.

Для одного из моих проектов мне пришлось разработать модель, чтобы предсказать, должен ли продукт проходить RMA или нет. Первоначально я думал, что ввел ВСЕ продукты, что делало это почти как проблему обнаружения аномалии.

Только после понимания потребностей бизнеса и того, как эта модель будет использоваться, я понял, что исходные данные моей модели - это все продукты, которым выдан RMA (клиент отправил электронное письмо о проблеме с продуктом). Это сделало данные более сбалансированными и сэкономило мне много времени.

8. Не стоит недооценивать силу SQL.

SQL - это универсальный язык данных - это, пожалуй, самый важный навык, который нужно изучить в любой профессии, связанной с данными, независимо от того, являетесь ли вы специалистом по данным, инженером данных, аналитиком данных, бизнес-аналитиком или список продолжается.

SQL важен не только для построения конвейеров, извлечения данных и обработки данных, но теперь вы можете фактически создавать модели машинного обучения, используя запросы SQL. BigQuery ML позволяет вам это делать.

9. Относитесь к науке о данных как к командному спорту.

Одно из самых больших преимуществ специалиста по обработке данных - это предоставленная вам автономия. Но это легко может обернуться неудачей, если вы не хотите обращаться за советом, помощью или обратной связью от других.

Несмотря на уровень автономии, наука о данных - это командный вид спорта. Вы должны принимать советы и обратную связь от нескольких заинтересованных сторон, включая конечных пользователей, экспертов в предметной области, инженеров по обработке данных и т. Д.

10. Не тратьте время на то, чтобы все запомнить.

Там просто слишком много всего, чтобы пытаться все запомнить. К тому же это пустая трата времени. Лучше попрактиковаться в поиске ответов на вопросы в Google, чтобы получить нужные ответы.

Кроме того, начните лист Google, чтобы хранить действительно полезные ссылки, к которым вы часто возвращаетесь. Что касается меня, мне нравится включать ссылки на шпаргалки, ускоренные курсы и вопросы, которые я часто задаю в Google (например, код регулярного выражения для электронных писем).

11. Быстрое развертывание, быстрое выполнение итераций и постоянная обратная связь.

Важно постоянно общаться с другими заинтересованными сторонами, держать их в курсе вашего мыслительного процесса, любых предположений, которые вы делаете для модели, и получения обратной связи. В противном случае вы можете получить модель, которая не решит проблему.

Лично я использую Gradio для создания веб-интерфейсов для каждой итерации моей модели, когда делюсь ею с заинтересованными сторонами, особенно не кодировщиками.

Я считаю Gradio невероятно полезным по следующим причинам:

Это позволяет мне в интерактивном режиме тестировать различные входные данные в модели.
Это позволяет мне получать отзывы от пользователей домена и экспертов домена (которые могут не быть кодировщиками)
Для реализации требуется 3 строчки кода, и его можно легко распространить через общедоступную ссылку.

12. Просмотрите проект полностью. Вы несете такую же ответственность за реализацию модели, как и за ее создание.

Давно прошли те времена, когда вы, как специалист по данным, могли передать свой лоскутный блокнот Jupyter группе инженеров для внедрения. В наши дни специалисты по обработке данных больше похожи на специалистов по данным, инженеров и менеджеров по продуктам.

13. Все является коммерческой подачей.

Как специалист по данным, вы всегда продаете себя, будь то продажа новой идеи или модели, которую вы построили. Как и в пункте 5, вы должны уметь сообщать о ценности для бизнеса, которая исходит от каждой идеи, каждой модели и каждого проекта, который вы предпринимаете.

14. Составьте устойчивый график, чтобы учиться постоянно.

Если вы собираетесь учиться, делайте это правильно. Вы, наверное, слышали о кривой забывания. Проще говоря, вам нужно быть последовательным в изучении науки о данных и практиковать то, что вы изучаете, если вы хотите иметь возможность сохранять новую информацию.

Будьте честны с собой и составьте расписание, которого сможете придерживаться. Но последовательность является ключевым моментом.

15. Узнайте, как использовать Git и GitHub.

Изучение передовых методов разработки программного обеспечения будет иметь большое значение. Контроль версий особенно важен, потому что его использует каждая компания!

Я бы посмотрел на эти два ресурса:

16. Учиться на практике.

Вы получите и сохраните больше знаний и навыков, делая, а не просто изучая. Подобно тому, как вы делаете домашнее задание после изучения новой концепции в школе, вам необходимо постоянно применять полученные знания в проектах.

Вот несколько идей для проектов, с которых можно начать.

17. Оставайтесь на связи с тем, что происходит.

Что касается изучения новых инструментов и библиотек, важно быть в курсе последних событий в области науки о данных, чтобы вы могли поддерживать свои навыки и инструменты в актуальном состоянии.

Мне нравится делать это, читая публикации, просматривая видео на YouTube и читая корпоративные блоги, такие как Airbnb, Uber, Google и Facebook.

18. Научитесь применять дивергентное и конвергентное мышление.

Это невероятно полезный метод для использования в науке о данных, чтобы вы могли убедиться, что исчерпали все варианты. Дивергентное мышление означает просто поиск нескольких решений данной проблемы, а конвергентное мышление означает сужение ваших вариантов до одного решения. Это особенно полезно при выполнении EDA и выборе модели / алгоритма для использования.

Подробнее об этом можно узнать здесь.

19. Начните карьеру док.

Это то, о чем я фактически не слышал, пока об этом не написал мой друг Удара. По сути, это дневник или дневник вашей карьеры. В отличие от резюме, которое предназначено для работодателей, документ о карьере предназначен для вас, чтобы оглянуться назад и задуматься.

Если вы хотите узнать о нем больше, можете заглянуть здесь!

20. Умение устанавливать ожидания сильно повлияет на то, насколько вы «успешны» в своей карьере.

Обещай меньше. Доставьте больше.

Это особенно актуально для специалистов по данным, поскольку специалист по данным может потратить столько времени, сколько он / она хочет, на создание модели. Специалист по данным может построить посредственную модель, используя автоматические библиотеки машинного обучения, или построить почти идеальную модель, но на ее завершение уйдут месяцы.

Независимо от того, что вы выберете, важно управлять ожиданиями, чтобы заинтересованные стороны не были разочарованы. В частности, это означает управление ожиданиями с точки зрения сроков и производительности моделей.

21. Найдите наставника, готового помочь вам, на которого вы равняетесь.

Одна из величайших вещей, которые произошли со мной в моей карьере, - это найти наставника, который был чрезвычайно хорошо осведомлен, который также глубоко заботился о моем успехе.

Я бы сказал, что благодаря ему я узнал вдвое больше, чем обычно.

Спасибо за прочтение!

Я надеюсь, что вы смогли кое-что от этого отвлечь! Я искренне верю, что эти советы значительно помогли мне в моей карьере, и я уверен, что они сделают то же самое для вас.

Как всегда, я желаю вам удачи в учебе :)

Не знаете, что читать дальше? Я подобрала для вас другую статью:

Все алгоритмы машинного обучения, которые вы должны знать в 2021 году
Интуитивно понятные объяснения самых популярных моделей машинного обучения в сторонуdatascience.com

и еще один!

Завершите 52-недельную учебную программу, чтобы стать специалистом по данным в 2021 году
Учите что-нибудь каждую неделю в течение 52 недель! кdatascience.com

Теренс Шин

Если вам понравилось, подписывайтесь на меня на Medium, чтобы узнать больше
Заинтересованы в сотрудничестве? Давайте подключимся к LinkedIn
Подпишитесь на мою рассылку здесь!