В отличие от взбивания молока в славное масло. Отток в мире науки о данных обычно сигнализирует о том, что что-то не так. Большинство компаний, работающих по модели подписки, обеспокоены оттоком клиентов. Отток клиентов влияет на их модели доходов и, следовательно, влияет на заработную плату в организации. Однако наиболее интересным применением анализа оттока является настройка управления персоналом. Я нахожу это интересным, потому что удержание талантов является хорошим показателем долгосрочного успеха компаний (мое мнение, а не финансовый совет). Логика гласит, что чем больше времени компания тратит на исполнение, а не на набор персонала, тем выше производительность компании, лучше обслуживаются клиенты и выше продажи. Благодаря методам машинного обучения прогнозирование оттока становится проще. В этой статье я исследую больше, чем методы, а скорее соображения, которые изо дня в день делают специалисты по данным, когда они работают с набором данных.

Во-первых, чаще всего в любом наборе данных есть дисбаланс данных. В рабочей тетради это подчеркивается распределением клиентов, которые ушли, и клиентов, которые не ушли. Основная проблема с настройкой модели с использованием этого набора данных — набор обучающих данных. Это может ввести в заблуждение или иметь довольно сильную предвзятость в отношении оттока, даже если это может не отражать реальность. Таким образом, создание нового набора данных со сбалансированным обменом и отсутствием обмена для обучения беспристрастных моделей позволяет применить модель к большему количеству выборок, а не к выборкам со смещением. Это напоминает мне о проблеме с датчиками или сканерами, которые не распознают более темные руки для дозирования мыла, потому что у тренировочного набора были более светлые руки.

В повседневной работе вы столкнетесь с ученым, работающим с данными, который жалуется на необходимость обучения нескольких моделей на одних и тех же данных. Здесь важны экспертные знания. Понимание основной бизнес-цели. В случае работающего ноутбука нам нужен более высокий показатель точности для точного моделирования оттока. Важно понимать разницу между высокой оценкой точности и высокой оценкой припоминания. Разница похожа на родительский блокировщик, который иногда разрешает контент для взрослых, такой как Южный парк, и тот, который может блокировать Шрека за то, что он слишком взрослый. Нюанс важен. Помимо возможности написать скрипт для Python, понимание статистики, лежащей в основе моделей, позволяет профессионалу уловить нюансы и дать лучшие рекомендации для решения бизнес-задачи.

В рабочем блокноте я прошел процесс очистки некоторых данных, балансировки данных, а затем демонстрации различных моделей, используемых для обучения, а затем выбрал модель для статьи, которая соответствовала моим целям. Я также исследую, как функции, которые информируют наши модели, взвешиваются в модели прогнозирования. Цель состоит в том, чтобы подчеркнуть читателю, что как клиент вы можете быть настолько конкретными, насколько вам нужно, с вопросами, которые вы задаете своему специалисту по данным. Для опытного профессионала и новичка нет ничего сложного, даже если вам не задают правильных вопросов, задавайте вопросы, которые вы ожидали получить, и находите на них ответы сами.

Это научная часть и она ждет открытия. В отличие от разработки, незнание — это часть удовольствия, и у каждого набора данных есть что рассказать, потому что данные достаточно странно подстраиваются, чтобы рассказать историю пользователей и бизнес-актеров.

Рабочая тетрадь

Чтобы обсудить, как стратегически использовать данные вашей организации, чтобы обеспечить больший рост, и все, что связано с данными, свяжитесь с нами здесь.