Подождите, вы все правильно прочитали, да, это настолько же искусство, насколько и наука! У каждого художника есть свой собственный способ построения своего искусства, и даже каждый специалист по данным по-разному подходит к одной и той же бизнес-проблеме. И именно это делает это поле таким динамичным. Когда мы доходим до насыщения набором данных, думая, что это наилучший возможный результат БУМ, вы видите кого-то в таблице лидеров Kaggle с лучшим решением, мы идем БЛИН!!!! Итак, если это тот случай, который делает хорошего специалиста по данным, то короткий ответ — ВСЁ!! Хорошее знание математики, креативность, ЗНАНИЕ ОБЛАСТИ и т. д. Поэтому мы рассмотрим каждый компонент отдельно.

ХОРОШАЯ МАТЕМАТИКА:

1) Хорошо — это очень субъективный термин, который я чувствую, поэтому позвольте мне назвать его адекватным, так что же такое адекватное знание математики необходимо? Короткий ответ: ЭТО ЗАВИСИТ

Скажем, вы работаете над проблемой регрессии, чтобы предсказать оценки ученика, тогда знание линейной алгебры становится критическим. В сценарии 2 вы пытаетесь предсказать, заболеет ли пациент диабетом или нет, тогда возникает вопрос вероятности.

Таким образом, объем математики варьируется от простой дисперсии до сложных дифференциальных уравнений.

ЗНАНИЕ ДОМЕНА:

1) Это самая сложная головоломка в ML Spectrum. Каждая отрасль отличается, и ее проблемы другие. Итак, как подойти к выбору домена? Чтобы взять интересующий домен, он должен быть связан в первую очередь. Скажите, что вы любите спорт, «SPORTS ANALYTICS» может быть хорошим выбором. Поэтому хорошей отправной точкой будет загрузка набора данных Kaggle, а затем работа с ним.

2) Если у вас есть степень магистра делового администрирования в области маркетинга и вы пытаетесь заняться наукой о данных, вам подойдет МАРКЕТИНГОВАЯ АНАЛИТИКА.

Попробуйте найти то, что вас интересует в целом, и изучите возможности науки о данных в этом.

ТВОРЧЕСТВО:

1) Это сложная головоломка. Возможность иметь много трюков под рукой тоже очень сильно облегчает жизнь. Когда вы знаете много методов, вы автоматически становитесь изобретательными, пытаясь комбинировать несколько моделей и эффективно их решать.

2) Наряду с эффективностью, грубая сила, позволяющая найти лучшие методы с помощью множества экспериментов, и способность быть настойчивым - это очень необходимый навык в спектре данных.

3) Таким образом, стараться быть открытым при решении бизнес-проблемы — это самое важное, что нужно иметь.

Понимание бизнеса:

Еще до того, как вы запачкаете руки данными, понимание бизнеса с точки зрения «мышления из первых принципов» является ключом к лучшему пониманию бизнеса. Сформулируйте различные гипотезы для проверки только с пониманием бизнеса и попытайтесь разработать экспериментальную структуру дизайна для их проверки, как только будут получены данные.

Как построить модель?

Существуют разные подходы к построению моделей, но я перечислил подход, который использую в большинстве случаев.

ШАГ 1. Выполните исследовательский анализ данных (EDA)

ШАГ 2. Выполнение разработки функций

ШАГ 3.Выполните статистические тесты для определения статистической значимости

ШАГ 4. Создайте базовую модель

ШАГ 5. Создайте простую модель (линейную или логистическую регрессию).

ШАГ 6.Интерпретируйте коэффициенты и другие статистические показатели статистических моделей.

ШАГ 7. Создайте базовую модель для всех моделей с параметрами по умолчанию, используя AUTOML.

ШАГ 8. Определите наиболее эффективные модели (минимум 4)

ШАГ 9.Используя методы выбора функций, выберите лучшие функции

ШАГ 10.Сначала создайте модель, используя все функции (это своего рода тест)

ШАГ 11. Теперь создайте модель, используя выбранные функции.

ШАГ 12.Настройте гиперпараметры модели для повышения производительности.

ШАГ 13.Определите лучшую отдельную модель с помощью гиперпараметров и измерьте производительность.

ШАГ 14.Соберите модели (комбинацию нескольких моделей) и измерьте их эффективность.

ШАГ 15.В ансамблевых моделях есть определенные определенные комбинации, которые можно опробовать — комбинации бэггинга, комбинации бустинга, комбинации бэггинга + бустинга, комбинации древовидной модели,

Комбинации моделей регуляризации, Комбинации линейных моделей.

ШАГ 16. Определите лучшую модель среди всех экспериментов.

ШАГ 17. Зарегистрируйте важные функции, чтобы иметь четкое представление о том, какие функции вносят большой вклад в прогнозы.

ШАГ 18. Отправьте модель в готовом для использования виде.

Шаги могут быть изменены в зависимости от бизнес-задачи и типа данных. Хотя важно быть гибким, большинство частей этого шага будут частью любой проблемы машинного обучения.