Модель сегментации клиентов на основе поведения кредитных карт

Введение

Согласно Абрахаму Маслоу в его теории человеческих мотиваций, чрезвычайно важно признать человека живым объектом с различными потребностями. Вот почему мы должны знать, как люди взаимодействуют с окружающей средой.

При этом хорошо известно, что компании сталкиваются с множеством проблем, когда дело доходит до удовлетворения меняющихся потребностей своих клиентов. Вот почему они всегда планируют стратегии в свою пользу и, что более важно, в интересах своих клиентов.

В настоящее время многие организации полагаются на различные методы, основанные на данных, для сегментирования своего рынка, создавая подмножества на основе демографических данных, потребностей, приоритетов, общих интересов и других психографических или поведенческих критериев, используемых для лучшего понимания своей целевой аудитории.

По данным Accenture[1], банки используют свои данные для улучшения процессов в следующих аспектах:

  1. Персонализированные продукты и услуги
  2. Возможности прогнозирования закономерностей
  3. Принимайте гибкие и точные решения
  4. Автоматизация процессов для снижения затрат и операционных рисков
  5. Цифровые продукты и услуги

Другими словами, классификация клиентов становится конкурентным преимуществом, потому что компании могут использовать свое время и ресурсы для важных дел. Это подтверждает и компания Bain & Company[3], которая утверждает, что 81% предпринимателей считают классификацию клиентов важным способом повышения прибыли компаний. Bain также обнаружил, что компании с отличной стратегией классификации клиентов увеличили свою прибыль на 10% по сравнению с теми, у кого такой стратегии не было, в течение пяти лет.

При этом основной целью этого проекта было построение сегментации клиентов на основе поведения при оплате кредитными картами в течение последних шести месяцев для определения маркетинговых стратегий.

Заинтересованные стороны

Банки или финансовые организации, которые хотят сегментировать своих клиентов на основе прогностических моделей, используя машинное обучение в качестве важного инструмента для улучшения своих маркетинговых стратегий.

Получение данных

Источник данных

Источник данных был взят из задачи Kaggle под названием Набор данных кредитных карт для кластеризации. Образец набора данных обобщает поведение около 9000 активных держателей кредитных карт за последние шесть месяцев.

Файл находится на уровне клиента с 18 поведенческими переменными.

Ниже приведен словарь данных для набора данных кредитной карты:

  • CUSTID: Идентификация держателя кредитной карты (категория)
  • БАЛАНС: сумма остатка на счету, необходимая для совершения покупок.
  • BALANCEFREQUENCY: частота обновления баланса, оценка от 0 до 1 (1 = часто обновляется, 0 = редко обновляется).
  • PURCHASES: сумма покупок, сделанных с помощью аккаунта.
  • ОДИН РАЗПОКУПОК: максимальная сумма единовременной покупки.
  • INSTALLMENTSPURCHASES: сумма покупки в рассрочку.
  • CASH ADVANCE: наличный аванс, предоставленный пользователем.
  • ЧАСТОТА ПОКУПОК: как часто совершаются покупки, оценивается от 0 до 1 (1 = часто совершаются покупки, 0 = редко совершаются покупки).
  • ONEOFFPURCHASESFREQUENCY: как часто совершаются единовременные покупки (1 = часто покупается, 0 = редко покупается).
  • ЧАСТОТА ПОКУПОК: как часто совершаются покупки в рассрочку (1 = часто, 0 = редко).
  • CASHADVANCEFREQUENCY: как часто выплачивается аванс наличными.
  • CASHADVANCETRX: количество транзакций, совершенных с помощью «Cash in Advanced».
  • PURCHASESTRX: количество совершенных транзакций покупки.
  • CREDIT LIMIT: лимит кредитной карты для пользователя.
  • ПЛАТЕЖИ: сумма платежа, совершенного пользователем.
  • MINIMUM_PAYMENTS: минимальная сумма платежей пользователя.
  • PRCFULLPAYMENT: процент от полной оплаты, уплаченный пользователем.
  • TENURE: срок использования кредитной карты для пользователя.

Анализ данных

Изучив набор данных, мы проверили распределения переменных, которые представлены здесь:

Баланс

Переменная Баланс представляет собой среднее значение 1601,22 долларов США со стандартным отклонением 2095,57 долларов США (Приложение 1). Что касается его распределения, то ясно, что оно имеет смещение вправо, чего и следовало ожидать при работе с финансовыми данными с большим количеством нетипичных значений.

Покупки

Переменная "Покупки" представлена ​​средним значением 1025,44 долларов США и стандартным отклонением 2167,1долларов США(Приложение 2). Что касается его распределения, ясно, что он имеет уклон вправо.

Аванс наличными

Что касается Cash Advance, то среднее значение составило 994,18 долларов США, а стандартное отклонение — 2121,45 долларов США (Приложение 3).

Кредитный лимит

Переменная кредитный лимит представлена ​​средним значением 4522,09 долларов США и стандартным отклонением 3659,24 долларов США (Приложение 4). >.

Платежи

По результатам статистики платежей мы нашли среднее значение 1784,47 долларов США со стандартным отклонением 2909,81 долларов США (Приложение 5).

Минимальные платежи

Наконец, в разделе Минимальные платежи указано среднее значение 864,30 долларов США и стандартное отклонение 2372,56 долларов США (Приложение 6).

Методы

Зная, что набор данных имеет высокие значения стандартного отклонения переменной, как это было представлено ранее, мы перешли к некоторым методам нормализации, таким как StandardScaler, MinMaxScaler, RobustScaler и Normalizer — два последних с лучшими результатами. Позже мы использовали статистику Хопкинса, которая состоит из проверки пространственной случайности данных для проверки тенденций кластеризации [4][5]. Значения находятся в диапазоне от 0 до 1. Если результат меньше или равен 0,5, данные распределяются равномерно. С другой стороны, если результат находится в диапазоне 0,77–0,99, это указывает на высокую склонность к кластеризации. В данном тематическом исследовании среднее значение статистики Хопкинса составило 0,90.

Впоследствии было найдено количество кластеров (k), оптимизированных с помощью метода значений силуэта, который измеряет, насколько точка похожа на свой кластер (сплоченность) по сравнению с другими кластерами (корреляция). Также учитывалась метрика Дэвиса-Булдина, которая является мерой среднего сходства каждого кластера с его наиболее похожим, где сходство представляет собой отношение между расстояниями внутри кластера и расстояниями между кластерами, где минимальный балл равен ноль, а более низкие значения указывают на лучшую группировку. Итак, результатом приведенного выше объяснения было оптимизированное число (k) для настоящего исследования, и это было 5 кластеров, как показано на следующем изображении:

Теперь, поскольку набор данных имеет 18 столбцов, необходимо применить какой-либо метод уменьшения размерности. Без сомнения, одним из наиболее широко применяемых методов является PCA (анализ основных компонентов), подчеркивая, что это традиционно линейный метод для проецирования многомерных данных в подпространства меньшего размера с минимальной потерей дисперсии [6]. Однако есть несколько приложений, в которых данные находятся в подпространстве меньшей размерности, которое не является линейным, в этих случаях линейный PCA не является оптимальным методом для извлечения этого подпространства и, следовательно, представляет наибольшую пропорцию дисперсии данных. Поэтому были изучены другие методы для нелинейных данных, такие как Isomap (изометрическое картографирование), которое ищет вложение более низкой размерности, которое поддерживает геодезические расстояния между точками [7], подчеркивая, что настоящее исследование определялась двумя компонентами. Таким образом, данные были обучены с помощью алгоритма K-Means для определения каждого из кластеров, в результате чего была получена группировка, показанная ниже:

Наконец, на основе кластеризации, проведенной алгоритмом каждого клиента, был применен классификатор Random Forest для определения наиболее релевантных признаков (столбцов) для классификации, чтобы уменьшить размерность данных для детального анализа. Порог был определен как 0,06, в результате чего наиболее релевантными столбцами были: БАЛАНС, ПОКУПКИ, НАЛИЧНЫЕ_АВАРИИ, КРЕДИТ_ЛИМИТ, ПЛАТЕЖИ, МИНИМАЛЬНЫЕ_ПЛАТЕЖИ с точностью классификатора 96%.

Результаты

Из наиболее важных характеристик был проведен анализ, чтобы установить поведение клиентов и разницу между ними.

Схема кластера представлена ​​на следующем изображении:

Из частоты кластера наблюдения видно, что большая часть клиентов относится к третьему и четвертому кластерам. На основе этого наблюдения был проведен подробный анализ поведения классификации в отношении наиболее важных признаков.

Выплата наличными и покупки по сравнению с кластерами

Следующее распределение показывает поведение PURCHASES как линейное, в дополнение к этому поведение CASH_ADVANCE представлено в виде гистограммы. Отсюда видно, что кластеры, классифицированные как 0, 2 и 4, представляют собой несколько авансовых платежей, в отличие от кластеров 1 и 3.

С другой стороны, клиенты с большим количеством «ПОКУПОК» классифицируются в кластере 2, в отличие от других, классифицированных в кластерах 0, 1, 3 и 4. Если установить связь между «ПОКУПКАМИ» и «НАЛИЧНЫМИ СРЕДСТВАМИ», можно сделать вывод, что клиенты, отнесенные к кластеру 2, совершают большие покупки, но авансовые платежи наличными являются низкими, в отличие от клиентов, отнесенных к кластерам 1 и 3, с большим количеством авансов наличными, но низкими покупками.

Баланс и покупки против кластеров

В следующем распределении у нас есть переменная «БАЛАНС», представленная с помощью гистограмм, и «ПОКУПКИ» в виде линейного представления. Можно видеть, что клиенты, классифицированные в 3-м кластере, имеют высокий БАЛАНС, в отличие от клиентов, классифицированных в 4-м, имея средний БАЛАНС в 588 долларов США, что является самым низким. Если мы проанализируем переменную ПОКУПКИ, то увидим, что клиенты, классифицированные во 2-м кластере, имеют наибольшее количество ПОКУПОК со средней стоимостью 4080 долларов США, в отличие от клиентов, классифицированных по другим кластерам.

Когда мы рассматриваем обе переменные, можно увидеть, что клиенты, классифицированные во втором кластере, имеют большое количество покупок, но небольшое количество балансовых отчетов, что имеет смысл, если мы примем во внимание, что по мере увеличения покупок баланс клиента уменьшается.

Баланс и платежи против кластеров

В следующем распределении у нас есть «БАЛАНС», представленный с использованием гистограмм, и «ПЛАТЕЖИ» в виде линейного представления. Можно видеть, что клиенты, классифицированные в третьем кластере, имеют высокий БАЛАНС, в отличие от клиентов, классифицированных в четвертом, со средним БАЛАНСОМ 588 долларов США, что является самым низким. Если мы проанализируем переменную PAYMENTS, то увидим, что клиенты, отнесенные ко второму кластеру, — это те, которые достигают среднего значения 4 294 долларов США, за которыми следуют клиенты третьего со средним значением 3 445 долларов США.

Теперь, если наблюдать за распределением обеих переменных, принимая во внимание классификацию клиентов, можно увидеть, что те, которые классифицированы во втором кластере, представляют большое количество платежей, но не такое низкое число балансов, что является хорошим показателем. наблюдение, потому что известно, что существует тенденция платить кредитными картами.

Вывод

По представленным выше результатам можно сделать вывод, что поведение каждого из кластеров следующее:

  • Кластер 0: клиенты такого типа платят минимальную сумму заранее, и их оплата пропорциональна движению их покупок. Это означает, что они являются хорошими клиентами, оплачивающими долги, которые они берут на себя, с помощью своих кредитных карт.
  • Кластер 1: в этой группе представлены клиенты, которые платят больше всего авансом до начала кредита со сбалансированным отчетом о балансе, потому что их покупки минимальны по сравнению с другими группами, а также это второй лучший оплата.
  • Кластер 2. Клиенты в этом кластере вносят минимальную сумму авансом, однако это группа, которая покупает больше всего, а также группа, которая платит больше всего. Другими словами, эти типы клиентов довольно активны в отношении количества покупок, которые они совершают с помощью своих кредитных карт.
  • Кластер 3: это клиенты с самым высоким балансом, кроме того, они являются второй группой, которая платит больше всего заранее, прежде чем начать свой кредит. Тем не менее, это клиенты, которые совершают наименьшие покупки и, следуя той же идее, являются секундантами, когда дело доходит до выплаты долга с помощью своей кредитной карты. Это имеет смысл, так как они заранее сумму кредита. Можно сделать вывод, что это консервативные и дотошные покупатели при покупке.
  • Кластер 4. Эта группа клиентов редко использует свои кредитные карты, поскольку именно вторая группа покупает меньше всего, кроме того, они являются клиентами, которые хорошо платят пропорционально своим покупкам. . Что касается предоплаты перед выдачей кредита, то она минимальна по сравнению с другими группами.

Наконец, маркетинговые стратегии могут применяться на основе этих выводов в зависимости от целей компании, например, если компания хочет провести маркетинговую кампанию для поощрения использования кредитных карт и в то же время применить их к клиентам с хорошим платежным поведением. , группы 1 и 2 идеально подходят для просмотра. С другой стороны, клиенты из группы 3 наиболее консервативны в отношении покупок, поэтому маркетинговые стратегии для этой группы должны быть разными.

Рекомендации

Для будущих исследований необходимо учитывать как числовые, так и категориальные переменные, чтобы провести более глубокий анализ, относящийся к упомянутым выше типам переменных. С другой стороны, рекомендуется изучить различные препроцессоры и нормализаторы, доступные в пакете scikit-learn [8].

Аннотации

Диаграммы были опубликованы на панели управления через Tableau Public. Наконец, вы можете найти исходный код этого проекта в следующем репозитории Github.

использованная литература

[1] Р. Дейли, Рост данных в банковской сфере не остановить, Блог Accenture Banking, 2020 г. [Онлайн]. Доступно: https://bankingblog.accenture.com/growth-of-data-in-banking-is-unstoppable

[2] Р. Казем, А. Фарахи и А. Мастали, Профилирование поведения клиентов банка с использованием кластерного анализа прибыльности, Ieomsociety.org, 2011. [Онлайн]. Доступно: http://ieomsociety.org/ieom2011/pdfs/IEOM068.pdf

[3] Найди свою золотую середину, Harvard Business Review, 2008 г. [Онлайн]. Доступно: https://hbr.org/2008/02/find-your-sweet-spot-1.html

[4] А. Банерджи и Р. Дэйв, Проверка кластеров с использованием статистики Хопкинса — Публикация конференции IEEE, IEeeexplore.ieee.org, 2004 г. [Онлайн]. Доступно: https://ieeexplore.ieee.org/document/1375706

[5] А. Адольфссона, М. Акермана и Н. Браунштейн, Кластерировать или не кластеризовать: анализ методов кластеризации, Arxiv.org, 2018. [Онлайн]. Доступно: https://arxiv.org/pdf/1808.08317.pdf

[6] К. Орсениго и К. Верселлис, Уменьшение линейной и нелинейной размерности для прогнозирования кредитного рейтинга банков, Science Direct, 2020. [Онлайн]. Доступно: https://www.sciencedirect.com/science/article/abs/pii/S0950705113000816

[7] 2.2. Многообразное обучение — документация scikit-learn 0.23.2, Scikit-learn.org. [Онлайн]. Доступно: https://scikit-learn.org/stable/modules/manifold.html#manifold

[8] Справочник по API — документация scikit-learn 0.23.2, Scikit-learn.org. [Онлайн]. Доступно: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing

Приложение

Таблицы с более важными переменными, разработанными с помощью статистического анализа, прилагаются.

Приложение 1. Баланс

Приложение 2. Покупки

Приложение 3. Выдача наличных

Приложение 4. Кредитный лимит

Приложение 5. Платежи

Приложение 6. Минимальные платежи

Авторы