Если вы начинаете свою жизнь как специалист по данным, вы будете слышать вокруг себя такие вещи, как почему мы не получили ожидаемую производительность? Эта модель провал!
Мы должны найти решение, чтобы улучшить эту модель, или мы должны начать с самого начала.

Если вы хотите избежать подобных ситуаций, вы должны избегать некоторых ошибок новичка. Здесь мы обсудим некоторые из них, которые мы уже совершили и которых вы можете избежать.

  1. Понять потребности клиента

Понимание необходимости, а не того, что вас просят достичь, имеет важное значение.

Клиент или ваши товарищи по команде часто будут приходить к вам с конкретными запросами, такими как оценка для выявления мошенничества… Но это не их потребность, и они думают, что оценка — лучший способ решить эту проблему, но, возможно, реальная потребность заключается в том, чтобы выявить всех клиентов с необычным поведением…

Идея здесь состоит в том, чтобы выйти за рамки запроса клиента и понять его потребности и бизнес-проблемы, а затем определить «настоящий вопрос, который необходимо решить».

2. Определите ожидаемый результат

Следующим шагом в вашем проекте по науке о данных является понимание ожиданий клиента.
"Чего клиент ожидает от результата?" – это самый важный вопрос, который вы должны задать себе на этом этапе и помнить об этом на протяжении всей работы. проект.

Вы не будете относиться к одной и той же проблеме одинаково, если клиент, например, попросит у вас оценочную карту или API.

Поэтому не торопитесь и четко определите ожидаемый результат клиента.

3. Планируйте свой проект шаг за шагом

  • Проведите инвентаризацию доступных и пригодных для использования данных
  • Оцените продолжительность вашего проекта
  • Определите показатели, которые вы хотите использовать, чтобы определить, является ли ваш проект успешным или нет (точность, полнота…) и никогда не меняйте их на протяжении всего проекта.
  • Сделайте первую версию вашей модели, даже если она не настолько производительна, как вам хотелось бы (чтобы у вас было что-то законченное, если вы должны это представить)
  • Улучшите свою производительность

4. Объяснительный анализ

Мы все согласны с тем, что эта часть вашего проекта скучна, и все мы хотим ее пропустить, но это самый важный шаг в вашем проекте по науке о данных.

Это похоже на приготовление торта: вы должны использовать хорошие ингредиенты для хорошего торта, но если вы не очень хорошо знаете ингредиенты, есть большая вероятность, что этот торт испортится.

То же самое и с проектом по науке о данных: вы должны очень хорошо знать свои данные для успешного проекта.
Здесь вам нужно определить и обработать пропущенные значения, выбросы, корреляции, …

В этой части вы можете использовать несколько советов, чтобы двигаться быстрее:

  • pandas-profiling для одномерного анализа. Этот пакет Python создаст файл HTML со всей необходимой информацией о вашем наборе данных.

5. Разработка функций

Следующим шагом, которого специалисты по данным часто избегают, является проектирование признаков. Этот шаг тоже очень важен, потому что здесь вы можете создавать новые переменные.
Разработка признаков полезна для повышения производительности алгоритмов машинного обучения.

Здесь вы снова можете сэкономить много времени, используя пакет featuretools. Это позволит вам автоматически создавать новые функции.

6. Никогда не запускайте модель в производство без монитора

Когда вы запускаете свою модель в производство, вы должны быть уверены, что качество продукции останется прежним в тот день, когда вы ее закончили.

Для этого вам необходимо создать систему мониторинга, которая будет ежедневно следить за работой модели и уведомлять вас, если что-то пойдет не так.

Для этого вы можете использовать такие инструменты, как Grafana, или создать собственную систему мониторинга/оповещения.

7. Общение и объяснение того, как мы можем его использовать

Многие люди думают, что наука о данных — это магия, и они на самом деле не понимают, как она работает.

Наша работа заключается не только в создании решения, мы должны объяснить его, популяризировав, чтобы сделать его доступным для всех. Это тем более важно, что ваша модель будет использоваться этими людьми.

Здесь они могут дать вам некоторую информацию, которую вы игнорируете, и которую вы можете интегрировать в свою модель. Это тоже очень важно.

8. Наука о данных и программная инженерия

Никогда не думайте, что работа специалиста по обработке и анализу данных — это просто построение модели и предоставление возможности другим командам запускать ее в производство. Вы несете ответственность за свою модель от начала до конца.

Ваше решение должно иметь возможность развертываться в клиентской среде быстро и без дополнительных усилий, поэтому вам следует использовать такие инструменты, как Docker, Git и другие.

Кроме того, в течение вашей карьеры специалиста по данным вам придется создавать API, приложения, интегрировать скоринг в существующее программное обеспечение и т. д., поэтому вы должны изучить хотя бы основы этих задач.

Вывод:

Вашему проекту по науке о данных не суждено провалиться, поэтому будьте внимательны к тем проблемам, которые мы рассмотрели выше.

Теперь получайте удовольствие от своих проектов :)

Вы новичок на Medium?
Не стесняйтесь подписаться менее чем за 5 долл. США здесь, чтобы получать неограниченные выгоды и улучшать свои навыки.