Когда мне исполнилось 14, больше всего меня обрадовало то, что этот кусок пластика с моим именем дает мне свободу приобретать вещи.

Да, я говорю о кредитной карте.

Заходя в магазин с родителями, я всегда задавался вопросом, как этот кусок пластика был таким же, как и настоящие деньги (иначе наличные); потому что для меня, когда мне было 9 лет, кредитная карта была по сути волшебством.

У среднестатистического канадца в кошельке около 2 кредитных карт, и он совершает операции с этой картой более 220 раз в год. Люди так любят свой пластик, что каждый год накапливают около 22 000 долларов потребительского долга.

При таком уровне использования крайне важно иметь системы для противодействия злонамеренному использованию.

Мошенничество с кредитными картами, определяемое как несанкционированное использование потребительского кредита или получение товаров без фактической оплаты, обходится потребителям и банкам более чем в 180 миллиардов долларов.

Не говоря уже о том, что обычные услуги, используемые для противодействия мошенническому использованию, требуют больших объемов человеческого, финансового и вычислительного капитала.

Использование машинного обучения

Машинное обучение — это многообещающий подраздел искусственного интеллекта, который фокусируется на распознавании (иногда неясных) закономерностей в больших наборах данных.

Любопытно, что обнаружение мошенничества с кредитными картами можно описать таким же образом.

Чтобы смягчить злонамеренное использование потребительского кредита, система должна обнаруживать платежные данные, которые указывают на мошенническое использование среди океана всех платежных данных.

Поручать эту задачу человеку крайне неэффективно, но компьютер, особенно оснащенный должным образом обученными моделями машинного обучения, может оказаться полезным для продавцов и кредиторов.

В этой статье я расскажу вам о воспроизведенной мной модели машинного обучения, которая способна распознавать мошеннические транзакции по кредитным картам.

Наши данные

Набор данных основан на транзакциях по европейским кредитным картам в сентябре 2015 года; у нас есть 496 товаров, помеченных как мошенничество, из 281 906 транзакций. Набор данных очень несбалансирован: мошеннические транзакции составляют около 0,176% всех транзакций в наших данных.

Как исправить дисбаланс данных?

  1. Процесс передискретизации: SMOTE
  2. Процесс недовыборки: через RandomUnderSampler

Подход 1: передискретизация

Передискретизация означает неестественное создание точек в нашем наборе данных класса, который недопредставлен в наших данных.

Одним из методов является SMOTE: метод передискретизации синтетического меньшинства.

На высоком уровне SMOTE создает синтетические наблюдения за классом меньшинства (в данном случае — за нашими мошенническими транзакциями).

SMOTE выполняет следующие действия:

  • Поиск k-ближайших соседей для наблюдений класса меньшинства (по сути, мы ищем похожие наблюдения)
  • Случайным образом выберите одного из этих k-ближайших соседей и используйте его для создания похожих новых наблюдений (но все же изменяемых случайным образом).

Чтобы узнать больше о технике SMOTE, проверьте это.

Подход 2: недостаточная выборка

Недостаточная выборка работает путем выборки основного класса, чтобы уменьшить количество выборок.

Один из простых способов недостаточной выборки — это случайный выбор нескольких выборок из класса, который перепредставлен, и их исключение.

Класс RandomUnderSampler случайным образом выбирает подмножество наших данных в целевых классах.

Он работает, выполняя кластеризацию k-средних для основного класса и удаляя точки данных из центров высокой плотности.

Первые результаты

В нашей модели используется классификатор случайных лесов для прогнозирования мошеннических транзакций.

Не делая ничего для решения проблемы несбалансированных данных, наша модель смогла достичь 100% точности для метки отрицательного класса.

У нас есть хорошие результаты по точности, учитывая оба класса.

Посмотрите репозиторий GitHub с моим кодом для этого проекта: https://github.com/swaritd/mlfrauddetection/blob/master/main

И отдельное спасибо Рафаэлю за вдохновение!

Понравилась эта статья? КЛАССНО! Покажите свою признательность внизу 👏👏

  1. Следите за мной на Средних
  2. Свяжитесь со мной в LinkedIn
  3. Пишите по адресу [email protected], чтобы сказать привет!

Я бы хотел поговорить о финтехе или любой другой крутой экспоненциальной технологии!