В этом посте (и последующих постах) я объясню свой подход к построению модели, позволяющей предсказать, выплатит ли заемщик кредит полностью или не сможет этого сделать. Данные, которые я использовал, взяты из LendingClub, их можно найти здесь. Существует несколько версий данных, которые усечены. Я использую исходный набор данных, который включает данные о более чем 2 миллионах кредитов, одобренных с 2007 по 2018 год. Кроме того, исходный блокнот можно найти в моем GitHub, который находится здесь!

Здесь вы узнаете:

· Очистка данных

· Исследование данных

· Выбор функций

· Предварительная обработка и моделирование

· Проверка модели

Фон

LendingClub была крупнейшей платформой однорангового кредитования до 2020 года, когда они изменили направление своего бизнеса. В ходе своей работы LendingClub создаст платформу для заемщиков и инвесторов, где заемщики смогут создавать свои заявки на кредит, а инвесторы будут решать, хотят ли они инвестировать в конкретный кредит. LendingClub будет зарабатывать деньги, взимая комиссию за создание со своих заемщиков и комиссию за обслуживание со своих инвесторов. Допустимый диапазон кредита составлял от 1 000 до 40 000 долларов США, а срок возврата - 3 или 5 лет. Инвесторы могли бы зарабатывать деньги на процентных ставках, которые варьировались от 6,03% до 26,06%.

Заявители на получение кредита будут предоставлять такую ​​​​информацию, как их статус владения жильем и занятость, и на основе этой информации LendingClub будет принимать решение об одобрении или отклонении кредита. Одобренным кредитам будет присвоена оценка. Было 7 классов оценок: от A до G, и каждый класс имел 5 подклассов: от 1 до 5. На основе класса кредита определялась процентная ставка, и инвесторы решали, хотят ли они инвестировать в кредит. .

Источник данных

Данные можно найти здесь. Данные включают в себя файл CSV, а также лист Excel. Файл Excel включает описание функций (столбцов) в файле CSV.

Функции

Имеется 151 функция. Первый шаг — решить, с какими функциями мы хотим работать, а какие функции можно безопасно удалить. Функции можно разделить на пять категорий, как показано на рисунке ниже.

· Общие характеристики: к этим характеристикам относятся адрес заявителя, штат заявителя, время подачи заявления, цель кредита и т. д. Среди этих характеристик может быть важно указать, где живет заявитель, и требует дополнительного изучения.

· Простые функции, такие как идентификатор участника, URL-адрес.

· Кредитная история заявителя: рейтинг Fico, время первой кредитной карты, количество открытых счетов, коэффициент использования и т. д.

· Особенности финансового статуса: стаж работы, должность, наличие жилья, доход и т. д.

· Характеристики производительности: эти характеристики были собраны в течение срока действия кредита и не влияют на решение LendingClub об одобрении или отклонении заявки на кредит.

· Особенности кредита, такие как процентная ставка и земляное полотно.

· Возможности совместного приложения: Существует два типа приложений; одиночные и совместные. Для совместных заявок есть такие характеристики второго заявителя, как кредитный рейтинг и т. д.

1. Обработка данных

1.1. Тип заявления

1.2. Почему люди просят кредит?

Как показано на рисунке, около 56% кредитов предназначены для погашения долгов. Другая категория включает оплату за «малый бизнес», «крупную покупку», «отпуск», «автомобиль», «медицинские», «переезд», «возобновляемые_энергии», «свадьбу» и «образовательные» цели.

1.3. Первоначальный выбор функции

Основное внимание в нашей работе уделяется одному заявлению, поэтому я отброшу строки, содержащие данные о совместных приложениях, а также любые столбцы, представляющие данные о втором заявителе. Любые столбцы, относящиеся к деятельности заявителя в течение срока кредита, также будут удалены. Очевидно, что такие особенности не влияют на принятие решений. Тривиальные функции, такие как код политики и URL-адрес, которые не дают полезной информации, будут удалены. Есть столбцы, в которых пропущено более 40% данных, эти функции также будут удалены. Столбцы с меньшим количеством пропущенных данных будут вменены. Выбросы будут удалены. Есть некоторые претенденты, которые сообщили о годовом доходе более 1 миллиона долларов. Однако странно, что человек с миллионным доходом просит кредит в 40 тысяч долларов. Эти кредиты, которых немного, будут отменены. С помощью корреляции Пирсона определяются пары коррелирующих признаков, и везде, где корреляция превышает 0,80, один из признаков будет отброшен.

1.4. Первоначальная разработка функций

Новая функция «Длина кредита» получается путем вычитания времени, когда была открыта первая кредитная карта, из времени подачи заявки. Ниже приведен статус кредитов. Вопрос, который приходит на ум, заключается в том, что такое списание и дефолт, и относятся ли они к одному и тому же понятию. Проверка веб-сайта LendingClub дает нам ответ: да, в обоих случаях заявитель не выплачивает кредит полностью. Таким образом, эти две категории можно объединить. Последние два столбца, не соответствующие кредитной политике, также будут объединены со столбцами «Полностью оплачено» и «Списано» соответственно. Наконец, остальные столбцы, включая текущие кредиты, будут удалены, что превращает проблему в двоичную классификацию.

2. Исследовательский анализ данных и влияние особенностей на списание кредита

Теперь, когда данные разделены на две категории: «Полностью оплачено» и «По умолчанию», мы можем начать изучать влияние различных функций на кредиты.

2.1. Должны ли мы относиться к государствам одинаково?

Чтобы выяснить, отличаются ли штаты, сначала была определена численность населения каждого штата и оценено количество выданных кредитов на 10 000 человек в каждом штате. Затем был определен процент списанных кредитов, который показан на рисунке ниже. Как показано, процент невыплаченного кредита практически одинаков во всех штатах.

2.2. Распределение статуса кредита по годам

Чтобы узнать, как кредиты распределяются по годам, кредиты классифицируются в зависимости от года их выдачи. Как показано на следующем рисунке, в 2015 году наблюдается наибольшее количество выданных кредитов. Однако следует также отметить, что текущие данные не включают кредиты со статусом текущий; он включает только кредит с завершенными условиями, либо полностью выплаченный, либо просроченный.

2.3. Распределение статуса кредита в зависимости от класса

Существует 35 классов кредитов, начиная с A1 и заканчивая G5. Более подробно о грейдах можно прочитать здесь. Но вкратце: по мере перехода от класса A к уровню G, тем более рискованным будет кредит. Распределение кредита по классам показано ниже. Из диаграммы видно, что по мере снижения уровня обучения от А до G вероятность дефолта возрастает; хотя дефолт по кредитам класса А составляет менее 10%, вероятность дефолта по кредиту класса G составляет около 50%. Таким образом, рейтинг может быть сильным предиктором дефолта по кредиту.

2.4. Распределение статуса кредита по сравнению с владением жильем

Домовладение также является одной из особенностей, которая используется для принятия решения по заявке на получение кредита. Ниже показано распределение статуса кредита по типу дома заявителей. Большинство заявителей проживают либо в собственном доме, либо в арендуемом доме, либо в ипотеке. Во всех этих категориях процент невыполнения обязательств практически одинаков. Таким образом, владение жильем не может быть сильным предиктором дефолта по кредиту.

2.5. Распределение статуса кредита в зависимости от стажа работы

Стаж работы подразделяется на 11 групп: от менее года до 10 лет и более. По данным, шансы одинаковы. Таким образом, стаж работы также не является хорошим предиктором.

2.6. Распределение статуса кредита в зависимости от годового дохода

Влияние годового дохода заявителя показано ниже. Это видно; гистограмма годового дохода сгруппирована в самой первой ячейке, а это означает, что претендентов с очень высокими доходами мало. Всего 1678 претендентов с доходом выше $500 тыс. Однако при обработке данных я проверил статус проверки, и все они являются законными данными.

2.7. Распределение статуса кредита по сравнению с показателем Fico

Кредитные рейтинги FICO — это метод количественного определения и оценки кредитоспособности человека. Баллы варьируются от 300 до 850, при этом оценки в диапазоне от 670 до 739 считаются хорошими. Оценка Fico также является одним из важных факторов при принятии решения о подаче заявки на кредит. Как показано ниже, полностью выплаченные кредиты имеют более высокие оценки по сравнению с невыплаченными кредитами. По мере увеличения кредитного рейтинга заявителя вероятность того, что он/она не сможет выплатить свои кредиты, уменьшается.

2.8. Распределение статуса кредита в зависимости от рассрочки, процентной ставки, суммы кредита и срока кредита

Влияние суммы кредита, процентной ставки, рассрочки и срока кредита показано ниже. Сумма кредита — это сумма денег, которую запрашивает заемщик, а рассрочка, процентные ставки и срок — это факторы, которые определяются Lending Club. Кажется, что кредиты с более высокими суммами, которые приводят к более высокому взносу и более длительным срокам, являются более рискованными. Когда процентная ставка увеличивается, коэффициент дефолта также увеличивается; для кредитов под процентные ставки ниже 10% - менее 10% дефолта по кредитам, однако кредиты с процентными ставками 30% или выше имеют вероятность дефолта более 50%.

Следует отметить, что процентная ставка определяется полномочиями заявителя. Как обсуждалось ранее, Lending Club присваивает каждому кредиту оценку (от A1 до G5). Чем более рискованным является заявитель, тем выше оценка. Как показано на рисунке, с повышением рейтинга процентная ставка также увеличивается. Кредиты с более высокими суммами, которые приводят к более высокому взносу и более длительным срокам, являются более рискованными. Когда процентная ставка увеличивается, коэффициент дефолта также увеличивается; для кредитов под процентные ставки ниже 10% - менее 10% дефолта по кредитам, однако кредиты с процентными ставками 30% или выше имеют вероятность дефолта более 50%.

2.9. Распределение статуса кредита по сравнению с предыдущими списаниями, банкротствами, сборами и налоговыми задолженностями

Еще одним набором информации, которую кредитные компании ищут при принятии решения о заявке на кредит, является кредитная история заявителя: предыдущие сборы, списанные счета, публичный отчет и налоговые залоги. Как показано ниже, заявители, которые не полностью погашают свой кредит, и те, кто полностью погашает свой кредит, существенно не различаются по своей кредитной истории.

Как показано на приведенных выше графиках, заявители, которые не полностью погашают свой кредит, и те, кто полностью выплачивает свой кредит, существенно не различаются по своей кредитной истории. Однако очевидно, что среди претендентов существует большая разница. Хотя у большинства заявителей нет банкротств или налоговых задолженностей, есть несколько заявителей, у которых имеется более 10 случаев банкротства и более 80 налоговых задолженностей соответственно. Кроме того, хотя у большинства заявителей нет сборов или списанных мероприятий, у некоторых имеется более 10 сборов или 20 списанных инцидентов.

2.10. Распределение статуса кредита в зависимости от коэффициента использования, возобновляемого баланса и запросов в течение 6 месяцев с момента подачи заявки на кредит

Следующий набор исследуемых характеристик описывает, как заявитель использует свой кредит во время подачи заявки на кредит. Функции, включая возобновляемый баланс, соотношение использованного кредита к кредитному лимиту, который является коэффициентом использования, и кредитные запросы показаны ниже. Судя по всему, существенной разницы между дефолтными и полностью погашенными кредитами в этом отношении нет.

2.11. Распределение статуса кредита по сравнению с самым ранним кредитом

Длина кредитной истории заявителя также влияет на условия подачи заявки на кредит. Для изучения продолжительности кредита доступна дата, когда заявитель получил свою первую кредитную карту. Функция pd.to_datetime использовалась для преобразования этого столбца в дату и время, и была найдена разница между этим значением и датой выдачи кредита. Как показано на диаграмме, продолжительность кредита не является значимым индикатором судьбы кредита.

2.12. DTI: соотношение долга к доходу

Соотношение долга к доходу сравнивает общую сумму ежемесячных долговых обязательств с ежемесячным валовым доходом (до уплаты налогов). Коэффициент DTI дает кредиторам более четкое представление о текущем долге и доходах заявителя и используется для определения суммы денег, которую заявитель может позволить себе взять взаймы ответственно. Гистограмма DTI показана ниже, и видно, что когда DTI высок, вероятность невыполнения заявителем своих обязательств по кредиту увеличивается.

2.13. Анализ основания кредита, процентной ставки и рейтинга Fico

Ниже показаны коробчатые диаграммы процентной ставки и рейтинга Fico в зависимости от подклассов кредита. Как обсуждалось ранее, существует 5 классов (от A до G), и в каждом классе есть 7 подуровней. В зависимости от квалификации заявителя A1 является лучшим земляным полотном, которое может иметь кандидат, а G5 — худшим. Видно, что заявки в G5 имеют более низкие оценки Fico и более высокие процентные ставки. Процентные ставки увеличиваются от класса A к уровню G и достигают плато в классе G.

В следующем посте я опишу предварительную обработку и моделирование.

#ExploratoryDataAnaанализ #MachineLearning #PredictiveModel #DataWrangling #DataScience