Для всех, кто изучает науку о данных, важно практиковаться на реальных данных или проблемах, связанных с реальным миром. Такой опыт не только позволяет получить опыт, но также позволяет развить аналитическое мышление при попытке решить проблему, связанную с данными, с помощью машинного обучения. В этом блоге я расскажу о пайплайне проекта по науке о данных. Это поможет вам понять, как сформулировать любой проект при попытке решить бизнес-проблему. Мы будем решать проблему классификации, используя логистическую регрессию в качестве нашего алгоритма выбора. В первой части мы пройдем этапы предварительной обработки, а также исследовательский анализ данных пайплайна науки о данных.

В этом примере давайте представим, что мы работаем в многонациональном банке, который пытается увеличить свою долю рынка в Европе. В последнее время количество клиентов, пользующихся услугами, сокращается, и теперь банк обеспокоен тем, что существующие клиенты перестали использовать их в качестве основного банка. Перед нами как специалистом по данным стоит задача выяснить причины оттока клиентов и предсказать будущий отток клиентов. Маркетинговая команда заинтересована в наших выводах и хочет понять существующее поведение клиентов и, возможно, предсказать будущий отток клиентов. Наши результаты помогут маркетинговой команде разумно использовать свой бюджет, чтобы ориентироваться на потенциальных клиентов.

Предварительная обработка данных

Сначала мы начнем с импорта наших библиотек и данных. Как уже упоминалось, мы будем использовать логистическую регрессию для этой проблемы. Поэтому мы импортируем наши пакеты из Scit-Kit Learn и импортируем наши банковские данные. Мы также начинаем с предварительной обработки данных. Так как есть пропущенные значения, мы хотим вменить их перед началом моделирования.

Мы также можем начать с изучения некоторых данных, включая целевую переменную. Поскольку мы хотим предсказать отток, наша целевая переменная — Exited, которая позже будет переименована для простоты. Мы заметили, что у 70% клиентов есть кредитная карта, а у 30% ее нет. Это интересное открытие, которое наша маркетинговая команда может принять во внимание.

Исследовательский анализ данных

Статистика

Этот шаг важен в любом пайплайне науки о данных, так как он может дать важную информацию, предоставить нам распределение данных, а также визуализацию. На этом этапе мы также можем генерировать статистику и делать выводы о том, какие переменные коррелируют друг с другом. Существует несколько различных способов проверки корреляции между переменными, для этого примера мы получим значения корреляции и выведем изображение с цветом для простоты интерпретации.

Мы также можем изучить целевую переменную, которую мы переименовали в churn. Если вы хотите увидеть, как это было изменено, вы можете перейти по ссылке GitHub, которая приведет вас прямо к этому блокноту. Мы видим, что 7663 клиента не ушли, а ушли 2037 клиентов. Мы также можем получить процент, соответствующий соотношению клиентов, которые ушли, и тех, кто не ушел. Мы можем сделать вывод, что доля клиентов, которые ушли, составляет 20,37%, а доля клиентов, которые не ушли, — 79,63%. Подразумевается, что у 70,55% клиентов есть кредитная карта, а у 29,25% клиентов ее нет. Это также помогает нам понять, являются ли данные, которые мы используем, несбалансированными.

Просматривая некоторую статистику, мы можем оценить переменные, которые могут быть важны для руководства или заинтересованных сторон, для которых мы строим проект. Исходя из этого рисунка, мы можем предположить, что средний балл по кредитной карте для ушедших клиентов составляет 645,35, а средний возраст ушедших клиентов — 44,83 года. Средний баланс и оценочная зарплата ушедших клиентов составляют 91 108,53 долларов США и 101 465,67 долларов США. Понятно, что эти значения больше, чем у клиентов, которые не ушли.

Теперь мы можем использовать график корреляции, чтобы понять взаимосвязь между переменными. Этот график корреляции дает нам много полезной информации между непрерывными переменными. График корреляции также может сказать нам, какие переменные связаны друг с другом с точки зрения коэффициента корреляции Пирсона. Очень важно отметить, что КОРРЕЛЯЦИЯ НЕ ОЗНАЧАЕТ ПРИЧИННОСТЬ. Это очень важно при интерпретации этих результатов. Хотя две переменные имеют сильную связь, может быть и третья, вызывающая эту связь.

Теперь, когда мы понимаем данные, мы можем создать пару визуализаций, чтобы просмотреть распределения в наших данных, а также сравнить различные переменные друг с другом.

Расчетная зарплата. Распределение расчетной зарплаты кажется одномерным. Это означает, что для значительного диапазона расчетной заработной платы количество клиентов более или менее постоянно.

Возраст. Это нормальное распределение с перекосом вправо. Это указывает на то, что большинство клиентов находятся в возрасте от 30 до 45 лет.

Баланс: указывает на бимодальное распределение. Это означает, что есть два значения баланса, для которых значения являются высокими. Существует также очень низкое значение, которое может указывать на выброс.

Заключение

Первая часть конвейера науки о данных состояла из исследовательского анализа данных, статистики, а также попыток понять, какие переменные коррелируют друг с другом. Перед моделированием очень важно всегда понимать данные, с которыми мы работаем. Речь идет о том, сбалансированы ли данные, нуждаются ли они в предварительной обработке, стандартизации, удалении выбросов и т. д. В следующей части мы пройдем некоторые важные шаги в моделировании от разработки признаков до оценки модели для классификация.