Помощь миллионам американцев «Бригитта» до следующей зарплаты

Этот блог был написан Брайаном Конзманом SJ, Ники (Никола) Корнблутом, Кристиной Мокус, Брайаном Нордиком, Нилом Таном и Тианьяном Вангом в рамках курса «Аналитика в действии» в Columbia Business School.

Приблизительно 100 миллионов американцев живут от зарплаты до зарплаты; Каждый год более 40 миллионов платят комиссию за овердрафт, чтобы сводить концы с концами. К сожалению, большинство финансовых институтов не избавляют от этого общего беспокойства. Входит Бригит. Благодаря прозрачным, справедливым и простым финансовым инструментам Бригит помогает обычным людям строить более светлое финансовое будущее.

Бригит оцифровывает и очеловечивает индустрию выдачи наличных, которая в противном случае часто обслуживается дорогими комиссиями за овердрафт и хищными кредиторами до зарплаты. Клиенты избегают ежегодных выплат за овердрафт в сотни долларов благодаря небольшим, но жизненно важным моментальным авансам Бригит. Альтернативные данные позволяют компании делать это, не подвергая себя чрезмерному риску, и в то же время избегают препятствий, создаваемых оценками FICO.

Всего за два года Бригит уже помогла более чем 1 миллиону человек почувствовать себя более защищенным в финансовом отношении. Увидев влияние, которое их продукт оказал на клиентов, Бригит работает над тем, чтобы распространить такие достижения на еще большее количество людей.

Именно здесь на помощь приходит команда инженеров, любящих данные, и магистров делового администрирования из Колумбийского университета.

Стремясь внести еще больше инноваций в свой рабочий процесс, Бригит стала партнером нас в рамках курса Аналитика в действии Columbia Business School, чтобы найти способ одобрить больше пользователей для продвижения Бригит. Для этого нам нужно было построить модель, которая более точно предсказывала вероятность дефолта при каждом наступлении. Обладая более точными прогнозами, Бригит могла уверенно принимать дополнительных пользователей, не беспокоясь о резком росте показателей по умолчанию.

С поощрения Бригит мы решили позволить их данным говорить с нами и избежать влияния их существующих моделей. Мы приступили к очистке данных и разработке функций. Помимо вменения, нормализации и создания новых функций на основе существующих данных и истории на уровне пользователя, мы также ввели некоторые внешние данные. Например, мы использовали Plaid API для сопоставления идентификаторов финансовых учреждений, которые нам дали, с названиями учреждений, а затем использовали веб-скрейпинг для добавления дополнительных данных. Это позволило нам классифицировать эти учреждения по таким атрибутам, как размер и тип учреждения (например, необанки). Оказалось, что эти категориальные особенности обладают значительной предсказательной силой.

Сами данные позволили получить много интересных сведений о пользователях Бригит. Например, выяснилось, что (в определенных пределах) пользователи, у которых ранее был очень отрицательный банковский счет, на самом деле менее склонны к дефолту. Это казалось странным, но дополнительное исследование показало, что на самом деле существует два типа поведения при овердрафте: пользователи, которые целенаправленно используют овердрафт для своевременной оплаты больших счетов, и пользователи, которые просто не знают о своем банковском балансе и овердрафте при обычных покупках. Первые разумно использовали имеющиеся денежные потоки, а вторые с полным основанием могли рассматриваться как несколько менее ответственные заемщики.

К счастью, мы также обнаружили, что большинство людей возвращают свои авансы! Хотя это отличная новость для бизнеса Бригит, она создает проблему для моделей машинного обучения: очень несбалансированный набор данных. Из-за меньшего количества случаев, когда пользователи не выполняют своих обязательств, модели труднее «узнать», как выглядит поведение. Чтобы решить эту проблему, мы попытались перебалансировать набор данных с помощью передискретизации. Поскольку было неясно, насколько похожи два класса данных (по умолчанию и не по умолчанию), мы протестировали множество методов, чтобы избежать переобучения, включая ADASYN, SMOTE и случайную передискретизацию. Затем мы протестировали множество моделей, включая логистическую регрессию, случайные леса, усиленные деревья решений и даже модель обнаружения аномалий (часто используемую компаниями, выпускающими кредитные карты, для обнаружения мошенничества).

Первоначально мы оптимизировали наши модели для наиболее точного прогнозирования дефолтов, поскольку они представляют большой финансовый риск для Бригит. Математика здесь проста: чем меньше людей откажутся от дефолта, тем большему количеству людей Бригит сможет помочь с тем же капиталом. Однако для расчета значимых показателей нам пришлось искусственно установить пороги одобрения. Например, если наша модель предсказывала 47% вероятность дефолта, нам нужно было решить, будет ли одобрен пользователь. Из-за этого было очень сложно сравнивать результаты по моделям.

По этой причине мы начали создавать кривые подъемной силы. С помощью этого типа кривой мы смогли визуализировать количество значений по умолчанию для различных пороговых значений утверждения для каждой модели. Это помогло нам сравнить компромисс между показателем принятия и показателем дефолта в разных моделях.

С помощью этого метода мы обнаружили, что логистическая регрессия и AdaBoost в сочетании со случайной передискретизацией были самыми сильными моделями. Они позволили нам впустить наибольшее количество пользователей при любой заданной ставке по умолчанию. Поскольку логистическую регрессию намного проще реализовать и взаимодействовать с пользователями, мы сосредоточились на этой модели в дальнейшем.

После нескольких недель изучения данных мы создали окончательную модель и спрогнозировали свое влияние. По нашим оценкам, с помощью нашей новой модели Бригит может принять на 10% больше пользователей, чем сейчас, при сохранении той же нормы по умолчанию. Это позволит Brigit расширить сферу своей деятельности и поможет на 10% больше людей освободиться от финансового стресса и построить более светлое финансовое будущее.