Банки ссужают деньги компаниям в обмен на обещание возврата. Некоторые не смогут погасить ссуды, по какой-то причине не в состоянии их выплатить. Банк поддерживает страхование, чтобы снизить риск убытков в случае дефолта. Страховая сумма может покрывать всю или только часть суммы кредита.

Для этого задания банк хочет спрогнозировать, какие компании не выполнят свои ссуды, на основе их финансовой информации. Предоставляемый набор данных состоит из информации о ссуде, такой как сумма, срок и состояние ссуды. Также есть информация о компании, такая как количество сотрудников, производственный сектор и т. Д.

Цель

Чтобы предсказать, если компания не выполнит свои обязательства по кредиту, я попробовал два разных алгоритма машинного обучения: логистическая регрессия и случайный лес. Инструкция этого задания заключалась в том, чтобы использовать точность в качестве метрики оценки. Однако в этом сценарии точность будет важна, поскольку мы хотели бы минимизировать вероятность невозврата кредитов.

Insights / Исследовательский анализ данных

Беглый взгляд на данные позволил сделать некоторые выводы:
1. Торговые компании - это самый большой пул клиентов
2. Более мелкие компании имеют более высокую тенденцию к дефолту
3. Срок займов не повлиял вероятность дефолта
4. Было вдвое меньше клиентов, не выполнивших свои обязательства по кредиту.

Обладая этой информацией, я приступаю к очистке данных и созданию новых функций, используя идеи. Цель состояла в том, чтобы предсказать статус по умолчанию, где 0 означает отсутствие по умолчанию и 1 по умолчанию.

Модель

Чтобы определить, какая информация будет важна для хорошей работы модели, я смотрю на важность функции и повторяю этапы разработки функции.

Логистическая регрессия была моей первой моделью, поскольку она имеет низкую временную сложность. Модель имеет точность около 70%. Это также означало, что 13% (109/821) клиентов не выполнили никаких выплат, но, по прогнозам, не совершат дефолт, иначе говоря, ложные срабатывания.

Следующей моей моделью был случайный лес. Его начальная оценка точности составляла 99%, но была переоснащена, что привело к плохому прогнозированию при вводе невидимых данных (проверка составила 90%). После настройки окончательная модель имеет точность 94% и больше не переоснащается. Альт! Нам удалось снизить количество ложных срабатываний с 13% до 3%.

Заключение

Нет единого способа определить, перестанет ли клиент производить выплаты. Но есть факторы, такие как срок кредита, отрасль, размер компании, которые способствуют их способности производить выплаты.

Коды этого проекта можно найти на моем Github. Со мной можно связаться через LinkedIn, если вы захотите подключиться.