Ваш (воображаемый) первый день в качестве аналитика данных

Завершите свой первый проект с помощью предыдущих знаний онлайн-курса

Вы когда-нибудь спрашивали себя, как выглядит успешный первый день работы аналитика данных? Чтобы получить мою Data Science Nanodegree, я покажу вам простой сценарий.

Вы узнаете:

Что такое кросс-продажи?
Как анализировать своих клиентов.
Как использовать машинное обучение для прогнозирования перекрестных продаж.

Szenario

Я получил набор данных от Kaggle с названием « Медицинское страхование «Предсказание кросс-продаж 🏠 🏥 ». Представьте, что вы являетесь аналитиком данных в крупной страховой компании. В качестве вашей первой работы начальник просит вас проанализировать конкретный набор данных о клиентах. Он дает вам файл customer-info.csv и следующие три вопроса:

Кем может быть типичный клиент нашей компании?
Какие факторы определяют, хочет ли клиент быть застрахованным у нас?
Какие клиенты ответят на нашу маркетинговую кампанию?

К сожалению, как начинающий специалист по данным, вы не знаете, что такое кросс-продажи, поэтому сразу же погуглите:

«Перекрестные продажи - это действие или практика продажи дополнительного продукта или услуги существующему покупателю» - Википедия 2020

Теперь ты знаешь. Вы работаете в крупной страховой компании, которая предлагает комплексную охрану здоровья. Страховая компания теперь хочет расширить свой продуктовый портфель. Поэтому ваша задача - выяснить, какие клиенты могут быть заинтересованы в страховании автомобилей.

Кем может быть типичный клиент нашей компании?

Теперь вы хотите использовать свои знания Python для анализа данных. Для визуализации и анализа данных вы использовали библиотеки Seaborn и Pandas. После того, как вы закончили, вы определили двух клиентов.

Энн 24 года, живет в штате с прекрасным титулом «28». У нее водительские права, ее машине два года и она уже повреждена. Страхование автомобилей пока не интересует.

Кевину 28 лет, он живет в штате с прекрасным титулом «28». У него также есть водительские права. Поскольку он действительно любит автомобили, его машине всего несколько месяцев, и она не имеет повреждений. Страхование автомобилей пока не интересует.

Когда вы показываете персонажей своим коллегам, они впечатляются. Однако они рекомендуют добавить еще несколько диаграмм. В противном случае босс задается вопросом, а вы все придумали. Вы думаете, что это совсем не проблема. В конце концов, образы придумали не вы. Напротив, анализ данных является основой для ваших предполагаемых образов. Сначала вы создали график гендерного распределения.

Гендерное распределение отличается всего на несколько процентных пунктов. Итак, вы решили завести мужчину и женщину. Следующим шагом было рассмотрение возрастного распределения. Вы также позаботились о том, чтобы в каждой возрастной группе было примерно одинаковое количество мужчин. Поэтому вы раскрасили возрастное распределение в два цвета. На графике видно, что большинство клиентов - это люди в возрасте от 20 до 30 лет.

Итак, вы решили изобразить двух людей в возрасте 24 и 28 лет. Итак, вы выбрали двух человек в возрасте 24 и 28 лет. Даже если у вас нет более точной информации об этом, вы доверяете своим инстинктам. На графике региона вы видели, что большинство людей приехали из штата 28 и что у всех есть водительские права.

Наконец, вы решили присмотреться к автомобилям своих покупателей. Вы заметили, что у большинства клиентов есть автомобиль возрастом от 1 до 2 лет или даже моложе одного года. Вы думаете, что это важная информация, и, конечно же, хотите включить ее в свой образ.

Что влияет на то, отреагирует ли клиент на наш подход к перекрестным продажам или нет?

Ваш босс впечатлен вашим анализом. Но ему тоже есть что критиковать. Вы оба не заинтересованы в нашем продукте. Он хочет знать, какие факторы влияют на Анн и Кевин, чтобы они с большей вероятностью приобрели автостраховку в его компании.

Итак, вы вернулись к работе и решили найти некоторую взаимосвязь между функцией ответа и другими функциями.

Вы добавили к персонажам новую информацию, полученную из тепловой карты:

Кевин передумал бы, если бы его машина получила более серьезные повреждения. Это основано на небольшой корреляции (0,35) между критериями реагирования и критериями повреждения транспортного средства. Вы думаете, что это забавно предлагать вашему боссу, что мы можем повредить машину Кевина, но вы решаете этого не делать. С иронией, наверное, плохо получается в первый день.

Анн, возможно, передумает, если станет старше (корреляция всего 0,11). Тот факт, что пожилые люди больше заинтересованы в страховании, означает, что наша маркетинговая кампания может быть ориентирована на людей, которые являются клиентами в течение очень долгого времени, но мы еще не просили их покупать страховку для транспортных средств.

Какие клиенты ответят на нашу маркетинговую кампанию?

Когда вы представили ваш окончательный результат своему боссу, он был впечатлен, и теперь он просит вас использовать какое-нибудь модное машинное обучение для вашей задачи. Поскольку вы достаточно хорошо подготовили свои данные, это не имеет большого значения, потому что вы знаете, что предварительная обработка уже составляет 80% работы.

Однако, после быстрого изучения документации ScitKit-Learn, теперь и вам, что делать. Ваша проблема заключается в бинарной классификации (будет или не будет реагировать на наш подход к перекрестным продажам), вы можете использовать некоторые классификаторы. Вы решили использовать такие современные методы, как LBM или XGBoost.

В то же время вы хотите использовать старую, но хорошо известную модель, чтобы можно было представить преимущества новых модных классификаторов. Чтобы узнать метрику оценки, вы снова погуглили. Исследования показывают, что хорошо сбалансированный классификатор (баланс между точностью и отзывчивостью) был бы очень полезен. Итак, вы убедились, что это так.

Как видно по результатам, классификатор LBM работает неплохо по сравнению с другими, а также сбалансирован. Вы будете использовать его, чтобы предсказать, какие клиенты с наибольшей вероятностью отреагируют на наши маркетинговые кампании.

После того, как вы отправите окончательные результаты своему боссу, вы почувствуете полное счастье. Вся работа и усилия, которые вы вкладываете в свои онлайн-курсы, позволили вам добиться успеха в своей первой задаче и на новой должности! Словами вашего самого любимого Тренера по машинному обучению и статистике.

Тройной БАМ! Тройной бам! Как перспективный аналитик данных, мы стояли на своем в первый же день. Завтра мы получим реальную работу, чтобы мы могли протестировать межотраслевой стандартный процесс интеллектуального анализа данных на точных данных. Нам любопытно.

Вы найдете код для этой статьи в моем репозитории GitHub 💻. Спасибо за прочтение! Если вам понравилось, пожалуйста, не забудьте похлопать, загляните на мой сайт 🌎и не стесняйтесь писать мне обратную связь 📩.