Конструирование признаков - ключ к успеху в моделировании. Хорошая разработка функций может уловить природу проблемы, что приведет к лучшему результату. Что есть особенность? Характеристика - это переменная, описывающая скрытые закономерности. В этой статье я рассмотрю особенности техники в литературе о мошенничестве с кредитными картами. Читатели узнают, как другие специалисты по обработке данных создают функции для выявления случаев мошенничества в различных отраслях. В Разработка функций для обнаружения мошенничества в сфере здравоохранения я покажу вам, как создавать функции для отрасли здравоохранения.

Я написал статьи по различным темам в области науки о данных. Для простоты использования вы можете добавить в закладки мой сводный пост Пути обучения Dataman - развивайте свои навыки, продвигайте свою карьеру », в котором перечислены ссылки на все статьи.

Мошенничество с кредитными картами в основном бывает двух типов: мошенничество с приложениями и мошенничество с транзакциями. Мошенничество с приложениями похоже на мошенничество с идентификацией, когда один человек использует личные данные другого человека для получения новой карты. Мошенничество с транзакциями происходит, когда карта украдена или потеряна карта получена для проведения мошеннических транзакций. Кроме того, значительно выросло количество поддельных карт. Знаете ли вы, что общая сумма непогашенных ссуд по кредитным картам в США составляет около 2,4 триллиона долларов в год? Мы действительно не знаем, какова истинная скорость мошенничества, потому что мы не все их поймали. Если истинный уровень мошенничества составляет десять процентов, убытки составляют 240 миллиардов долларов в год.

Мошенник попытается использовать карту как можно чаще за короткий период времени, прежде чем карта будет обнаружена и заблокирована. Таким образом, мы должны увидеть ненормальные транзакции за короткий промежуток времени. С этой целью, если мы будем агрегировать транзакции за определенный период времени, мы сможем обнаружить резкие изменения.

Позвольте мне представить пример, чтобы продемонстрировать, как можно создавать функции. В таблице показаны некоторые операции держателя карты. Данные транзакции включают идентификатор продавца, категорию продавца, местонахождение продавца, метку времени, метод и тип транзакции, а также сумму транзакции.

Можете ли вы обнаружить какие-либо подозрительные транзакции в этом гипотетическом примере? Обратите внимание, что эта карта использовалась для розничной транзакции в 9:02 в Бостоне и другой розничной транзакции в 9:10 в Нью-Йорке. Можно ли за 8 минут путешествовать между двумя городами, находящимися на расстоянии около 250 миль друг от друга? Разве мы не должны приостановить транзакцию в 9:10 до того, как она произойдет? И мы должны пометить эту карту для будущего расследования. Ваша система обнаружения мошенничества может создать правило «если две транзакции происходят в двух физических местах, и ожидается, что время на поездку из одного места в другое будет намного больше, чем время между двумя транзакциями, эскалируйте вторую транзакцию». Или вы можете создать функцию под названием travel_speed, которая делит расстояние на разницу во времени между двумя соседними транзакциями. Если вы видите какую-либо транзакцию с аномально большим значением, это может указывать на аномалию. Многие компании имеют гораздо более сложные функции для обнаружения подозрительных транзакций. Эти функции разумно созданы из необработанных данных. Они интеллект вашей системы. Я покажу вам, как создавать особенности.

Агрегация транзакций, минимальных, максимальных, средних или сумм, может дать много информации. Сотни функций могут быть созданы из данных транзакции. Ниже приведены некоторые предложения:

Агрегация по времени:

  • Средняя или максимальная сумма, потраченная на транзакцию за последнюю неделю, две недели или ХХ недель
  • Средние или максимальные суммы, потраченные в день за последнюю неделю, две недели или ХХ недель,
  • Средняя или максимальная сумма по категории продавца за последнюю неделю, две недели или ХХ недель,

Агрегирование по коду категории продавца:

  • Средняя сумма в день, потраченная в течение 30-дневного периода на все транзакции, вплоть до этой, для того же типа продавца, что и эта транзакция
  • Общее количество транзакций с одним и тем же продавцом за последние 30 дней
  • Средняя сумма, потраченная в течение 1 недели в течение последних 3 месяцев на тот же тип продавца, что и эта транзакция.

Агрегирование по местоположению и времени продавца. Первые две транзакции в приведенной выше таблице произошли в Нью-Йорке (NYC) и Бостоне (BOS) в течение 8 минут. Вероятно, карта была взломана.

  • Количество торговых точек в день и продолжительность между ними за последнюю неделю, две недели или ХХ недель,
  • Минимальное количество минут между транзакциями в двух торговых точках за последнюю неделю, две недели или ХХ недель,

Агрегация по методу транзакции. Транзакции с магнитной полосой более подвержены мошенничеству, чем транзакции с чипом или PIN-кодом. Таким образом, мы можем создать агрегированную сумму по типу транзакции для каждой карты.

  • Средняя сумма в день в зависимости от метода транзакции за последнюю неделю, две недели или ХХ недель,
  • Количество транзакций по способу транзакции в день за последнюю неделю, две недели или ХХ недель,

Вот список особенностей в Bhattacharyya et al. (2010) :

  • Средняя сумма, потраченная на транзакцию в течение месяца по всем транзакциям.
  • Средняя сумма, потраченная в течение 1 недели за последние 3 месяца
  • Средняя сумма, потраченная в день за последние 30 дней.
  • Средняя сумма в день, потраченная в течение 30-дневного периода на все транзакции, вплоть до этой, для того же типа продавца, что и эта транзакция
  • Общее количество транзакций с одним и тем же продавцом за последние 30 дней
  • Средняя сумма, потраченная в течение 1 недели в течение последних 3 месяцев на тот же тип продавца, что и эта транзакция.
  • Общая сумма, потраченная в тот же день до этой транзакции
  • Общее количество транзакций в тот же день до этой транзакции
  • Средняя сумма в день, потраченная в течение 30-дневного периода на все транзакции, вплоть до этой, у того же продавца, что и эта транзакция

Возможности обнаружения мошенничества могут быть созданы по знаменитому принципу Давность - Частота - Деньги или принципу R-F-M. Маркетологи используют принцип RFM для анализа ценности для клиентов. RFM означает три измерения:

  • Правильность - как давно покупатель совершил покупку?
  • Частота - как часто они совершают покупки?
  • M денежная ценность - сколько они тратят?

Применительно к обнаружению мошенничества мы можем создавать функции, основанные на принципе R-F-M:

  • Recency - время, прошедшее с момента последней покупки
  • Частота - общее количество транзакций.
  • Денежный - Средняя сумма транзакций.

Давайте посмотрим, как авторы APATE: новый подход к автоматическому обнаружению мошенничества с транзакциями по кредитным картам с использованием сетевых расширений »создают функции:

Они создали функции о «Давность - время, прошедшее с последней транзакции» для транзакций для одного и того же продавца, той же категории продавца, в той же стране или с использованием той же валюты и т. Д. Аналогичным образом были созданы функции для «Частота - общая количество транзакций »и« денежная - средняя сумма »на уровне продавца, уровне категории продавца и т. д.

Вы можете сказать, что будет много функций из-за множества возможных комбинаций. Действительно, в современной модели машинного обучения будут сотни и тысячи функций. Хорошие специалисты по данным стараются создавать инновационные функции для выявления мошенничества. Помните, что мошенники также узнают, как вы их поймаете, и сделают что-то другое в следующей попытке. Чтобы создавать эффективные функции, специалисты по данным должны понимать их мотивы и поведение.

Будет полезно наблюдать за стратегиями проектирования признаков, предложенными другими исследователями. Whitrow et al. (2009) подробно описывают, как они получили атрибуты данных посредством агрегирования. Bhattacharyya et al. (2010) отчеты об атрибутах данных, включая первичные и производные атрибуты. Bahnsen et al. (2016) расширяют стратегию агрегации транзакций и создают функции, основанные на периодическом поведении времени транзакции, используя распределение фон Мизеса. Затем в этих исследованиях применяются методы контролируемого обучения: поддержка векторных машин (SVM), случайных лесов (RF) и т. Д. При обнаружении мошенничества с кредитными картами. Sundarkumar & Ravi (2015) перечисляет атрибуты данных в своих приложениях для обнаружения банковского и страхового мошенничества. Vlasselaer et al. (2017) разрабатывают свои сетевые функции, исследуя сеть владельцев кредитных карт и продавцов и получая зависящую от времени оценку подозрительности для каждого сетевого объекта.

К сожалению, общедоступные наборы данных о кредитных картах для изучения практически отсутствуют из-за частного характера финансовых транзакций. Лопес-Рохас и др. (2016) в своей статье PaySim: симулятор финансовых мобильных денег для обнаружения мошенничества предлагают инструмент моделирования под названием PaySim для генерации аналогичных транзакций на основе исходного набора данных транзакций мобильных денег. Синтетический набор данных доступен на Kaggle.com.

Управление управления и корпоративных услуг в штате Оклахома сделало доступными транзакции покупок по кредитным картам. Этот набор данных содержит информацию о покупках, сделанных через программы покупательских карт, администрируемые государством и высшими учебными заведениями.