Исследовательский анализ соискателей кредита с использованием немецкого набора кредитных данных

Введение

Аналитика данных — это процесс анализа необработанных данных с целью получения информации и выводов о данных. Аналитика данных — важная область науки о данных, поскольку она помогает предприятиям оптимизировать свою работу. Аналитика данных помогает предприятиям сократить расходы и повысить общую эффективность бизнеса.

Когда банк получает заявку на получение кредита, банк должен принять решение относительно того, продолжать ли одобрение кредита или нет. Банк принимает решение о выдаче кредита на основании анкеты заявителя. С решением банка связаны два типа рисков:

  • Если заявитель имеет хороший кредитный риск, т. е., вероятно, погасит кредит, то отказ в предоставлении кредита лицу приведет к потере бизнеса для банка.
  • Если заявитель подвержен плохому кредитному риску, т. е. вряд ли сможет погасить кредит, то одобрение кредита этому лицу приводит к финансовым потерям для банка.

Цель

Цель German Credit Data — свести к минимуму шансы на выдачу рисковых кредитов заявителям при максимальном увеличении шансов на получение прибыли от хороших кредитов. Демографические и социально-экономические характеристики заявителя рассматриваются кредитными менеджерами до принятия решения по его/ее заявке на получение кредита.

Набор данных German Credit — это общедоступный набор данных, загруженный из Репозитория машинного обучения UCI. Немецкие кредитные данные содержат данные по 20 переменным и классификацию того, считается ли заявитель хорошим или плохим кредитным риском для 1000 заявителей на получение кредита. Задача требует изучения данных и построения прогностической модели, чтобы предоставить руководству банка руководство для принятия решения о том, следует ли одобрить кредит потенциальному заявителю на основе его / ее профиля.

Исследовательский анализ данных

Исследовательский анализ данных (EDA) используется для тщательного изучения набора данных. EDA выявляет тенденции, закономерности и взаимосвязи в наборе данных, которые могут быть неочевидными. Для этого примера я использовал упрощенную версию исходного набора данных, в которой всего 10 переменных:

  1. Возраст (числовой)
  2. Пол (строка: мужской, женский)
  3. Должность (числовое значение: 0 — неквалифицированные и иногородние, 1 — неквалифицированные и постоянные, 2 — квалифицированные, 3 — высококвалифицированные)
  4. Жилье (строка: собственное, арендное или бесплатное)
  5. Сберегательные счета (строка — мало, умеренно, довольно богато, богато)
  6. Текущий счет (строка — маленький, средний, богатый)
  7. Сумма кредита (цифровая, в немецких марках)
  8. Продолжительность (числовое, в месяцах)
  9. Цель (текст: автомобиль, мебель/техника, радио/телевидение, бытовая техника, ремонт, образование, бизнес, отдых/другое)
  10. Риск (строка — хорошо, плохо)

Импортируйте библиотеки и прочитайте набор данных

  • Набор данных содержит 10 столбцов и 1000 строк (4 признака — int64, а 6 признаков — объектные типы данных).
  • Проверка и сохранение учетных записей — это единственные два столбца с отсутствующими значениями.

Статистическая сводка данных

  • Средний округленный возраст — 36 лет.
  • Средняя продолжительность с округлением в большую сторону составляет 21
  • Возрастной диапазон от 19 до 75 лет
  • Диапазон кредита в немецких марках (DM) составляет от 250 до 18424.

Очистка пропущенных значений

  • В столбце «Сберегательные счета» пропущено 183 значения.
  • В столбце Checking account пропущено 394 значения.

Значения в столбцах «Проверка» и «Сохранение учетных записей» являются категориальными, поэтому я решил поближе взглянуть на то, что это были за значения.

При удалении строк без значений набор данных потеряет 577 экземпляров, что составляет более половины. Это значительная потеря данных. Чтобы избежать этого, я заменил нулевые значения на none. Возможно, у заявителей с нулевыми значениями не было сберегательного или расчетного счета на момент подачи заявки.

Визуализация данных

Целевое распределение переменных

  • Зарегистрировано 700 случаев, когда кандидат был оценен как хороший.
  • В 300 случаях кандидат был классифицирован как плохой.

Парный график числовых переменных

  • Графики распределения для Возраста, Суммы кредита и Продолжительность имеют положительную асимметрию

Распределение по возрасту

  • Все графики имеют положительную асимметрию, указывающую на то, что среднее значение больше медианы.
  • Заявители в возрасте от 20 до 30 лет чаще обращаются за кредитом
  • Заявители реже обращаются за кредитом с высокой кредитной историей
  • Больше кредитов было погашено примерно через 20 месяцев после выдачи
  • Банк с большей вероятностью примет заявителей в возрасте от 20 до 30 лет и запросит кредиты на сумму от 250 до 2500 немецких марок.

  • Более 50% заявителей с суммой кредита менее 5000 немецких марок классифицируются как хорошие.
  • Взрослые с кредитным кредитом более 5000 немецких марок с большей вероятностью будут классифицированы как плохие.
  • Студенты и Молодые соискатели, скорее всего, подадут заявку на получение кредита с суммой кредита менее 5000 немецких марок.

Распределение жилья

  • У большинства заявителей есть дом
  • Более половины заявителей, владеющих домом, классифицируются как хорошие.

  • Кривые плотности на графике скрипки показывают, что частота заявителей с суммой кредита ниже 5000 немецких марок выше.

Распределение по полу

  • В данных абитуриентов-мужчин в 2 раза больше, чем женщин.
  • Большинство соискателей относятся к категории квалифицированных вакансий.
  • Около 2/5 соискателей-мужчин и 1/3 соискателей-женщин классифицируются как плохие.
  • Распределение плотности по графикам скрипок следует той же тенденции, предполагая, что большинство соискателей-мужчин и женщин относятся к категории квалифицированныхработников.

Распределение по категориям должностей

  • Кандидатов на квалифицированные вакансии, которые классифицируются как хорошие, стало в 2 раза больше.
  • Более 50 % соискателей относятся к категориям квалифицированных и неквалифицированных и резидентных.
  • Кандидаты с высокой квалификацией с большей вероятностью возьмут более крупный кредит.

Проверка и сохранение распределения учетных записей

  • Заявители с небольшим или отсутствием сберегательных счетов с большей вероятностью подадут заявку на кредит.
  • Большинство заявителей относятся к категории маленькие
  • 50% заявителей в категории маленький находятся в возрасте от 25 до 45 лет.
  • Кандидаты с умеренными, достаточно богатыми и богатыми сберегательными счетами с большей вероятностью будут классифицированы как хорошие.
  • Кандидаты с небольшими и отсутствующими сберегательными счетами с суммой кредита, превышающей 5000 немецких марок, с большей вероятностью будут классифицированы как плохие.

  • Более 300 сотен заявителей не имели расчетных счетов
  • Более чем в 3 раза кандидаты, у которых не было текущих счетов, были классифицированы как хорошие.
  • 50% заявителей с умеренными текущими счетами были в возрасте от 25 до 40 лет.
  • Существует больший разброс заявителей с богатыми текущими счетами, которые классифицируются как хорошие и находятся в возрасте от 25 до 45 лет.
  • Кандидаты с большой суммой кредита и маленькой суммой на текущих счетах с большей вероятностью будут классифицированы как плохие.

Распределение по назначению

  • Большая часть заявителей запрашивала кредиты на покупку автомобилей, радио/телевизоров.
  • Более половины заявителей подали заявки на кредит менее 5000 немецких марок.
  • Заявители с кредитами с высокой кредитной историей с большей вероятностью будут классифицированы как плохие.

Распределение по продолжительности

  • Большинство выданных кредитов имело продолжительность 12 и 24 месяцев
  • Большинство заявителей, которые погасили свои кредиты в течение 24 месяцев, классифицируются как хорошие.
  • Большинство заявителей со сроком кредита, превышающим 24 месяца, классифицируются как плохие.

Выводы из анализа

  • Кредиты со сроком погашения менее 24 месяцев с большей вероятностью будут погашены
  • Безопаснее выдавать кредиты с суммой кредита менее 5000 немецких марок и сроком действия менее 24 месяцев.
  • Заявители, владеющие недвижимостью, показывают, что они финансово независимы и являются лучшими кандидатами на получение кредита.
  • Кандидаты с квалифицированной и высококвалифицированной работой являются более безопасными кандидатами для выдачи кредитов.
  • Автокредиты являются наиболее распространенными кредитами с высоким соотношением прибыли и убытка, выдаваемым банком (самый выгодный кредит)
  • Выдавать кредиты на сумму менее 2500 немецких марок выгоднее, чем более высокие кредитные кредиты, которые с меньшей вероятностью будут погашены.

Менеджер банка может принять обоснованное решение о том, следует ли продолжать работу с заявителем на получение кредита, просто используя приведенную выше информацию. Создание прогностической модели с использованием набора данных поможет увеличить шансы на выдачу хороших кредитов (финансовая выгода) и свести к минимуму плохие кредиты (финансовые убытки). Вторая часть этой статьи будет посвящена прогнозному моделированию и перекрестной проверке для выбора лучшей модели на основе данных.

Доступность проекта

Цитирование набора данных

Хофманн, Ганс. (1994). Statlog (немецкие кредитные данные). Репозиторий машинного обучения UCI

Этот набор данных находится под лицензией Creative Commons Attribution 4.0 International (CC BY 4.0).