Обнаружение мошенничества с использованием графической аналитики

Мошенничество преследовало прибыльный рост индустрии цифровых перевозок с самого начала концепции. Технологические компании постоянно работают над своими методами борьбы с мошенничеством, часто используя комплекс сложных подходов, основанных на данных. Однако в большинстве случаев из-за конкурентного характера бизнеса информация о мошенничестве не публикуется. Сегодня мы собрались здесь, чтобы обсудить на высоком уровне один из наиболее распространенных видов мошенничества на платформе Pathao: злоупотребление стимулом.

Как бывает мошенничество

Поощрения предоставляются как пользователям, так и водителям во многих формах, таких как квесты, промо-скидки, баллы лояльности и т. Д. Это затраты, которые мы несем для создания прочной надежности, платформы, где доступно множество драйверов и цены низкие для пользователей. Никто не хочет заказывать дорогие аттракционы и тратить время на ожидание всадника. Появляются мошенники - люди, которые рассматривают эти схемы как возможность обыгрывать систему и пожинать плоды.

Давайте сначала просто определим мошенническую поездку: на самом деле такой поездки вообще не было! В случае, который мы обсуждаем, драйвер мошенничества действует как пользователь и как водитель, используя два смартфона (один для пользовательского приложения, а другой для приложения для водителя). Они узнали, что расстояние между водителем и пользователем часто является одним из основных атрибутов соответствия пары водитель-пользователь во время запроса поездки. Таким образом, можно легко связать поддельного пользователя с поддельным драйвером, поместив два смартфона с соответствующими приложениями рядом друг с другом или используя поддельное приложение GPS. Так как же нам поймать этих мошенников и выявить их действия? Мы обратились за помощью в ФБР. Наша собственная специальная группа по расследованию мошенничества. В настоящее время команда представляет собой сочетание специалистов по данным, инженеров по обработке данных и экспертов в предметной области, работающих над автоматизированными подходами на основе правил, использующими бизнес-идеи, исследовательский анализ данных, методы обнаружения аномалий, машинное обучение и теорию графов.

Некоторые базовые системы обнаружения мошенничества

Большинство наших правил обнаружения мошенничества применяются к индивидуальному заказу / поездке. Это означает, что мы обнаруживаем мошенничество на основе функций уровня заказа / поездки, таких как данные GPS, временные метки и показатели устройства. На самом базовом уровне, если продолжительность заказа

Сеть графа драйверов Pathao

Сеть графов - это совокупность вершин, соединенных ребрами. На рис. 1 узел 1 и узел 3 называются «соседями» узла 2.

На рисунке 2 представлена графическая сеть на платформе Pathao, где D1 и D2 - драйверы, а U1 и U2 - пользователи. Два узла соединяются ребром, когда между ними происходит транзакция. В большинстве случаев в Pathao два водителя не имеют более одного общего пользователя. Интересно, что у D1 и D2 есть два общих пользователя (U1 и U2), что статистически очень необычно. Теперь при расследовании мошенничества нас интересуют только водители. Таким образом, в нашей сети останутся только драйверы.

Рис. 3 - это вариант «Сеть только для водителя» на Рис. 2, где два доставщика соединены ребром, если оба доставщика обслуживают одного и того же пользователя в течение последних семи дней. Если оба доставщика обслуживали нескольких общих пользователей, то количество общих пользователей добавляется как вес. У D1 и D2 было два общих пользователя на рис. 2, вес края между D1 и D2 на рис. 3 равен «2».

Теперь, когда наша сеть графов сформирована, мы можем применять различные методы обнаружения сообщества для выявления группового мошенничества.

Гипотеза

В реальных социальных сетях, таких как Facebook, существует множество небольших кластеров, в которых в рамках одних и тех же кластеров частота взаимодействия (например, комментарий, публикация на стене, сообщение и т. Д.) Высока. Скажем, например, у г-на X есть три разных круга друзей, и все они связаны с ним на Facebook. Поэтому естественно, что мистер X больше связан с этими тремя группами, чем с другими людьми из его списка друзей. Однако, если такие типы небольших кругов «друзей» встречаются на платформах цифровых транзакций, это необычный образец и отражает мошенническое поведение. Большое количество транзакций внутри одной и той же группы драйверов и пользователей маловероятно без искусственного изменения нашей системы сопоставления пар драйвер-пользователь. Гипотеза состоит в том, что мошенническая группа водителей / доставщиков и пользователей совершит большое количество транзакций между собой и очень небольшое количество транзакций за пределами данных кластеров. Для идентификации этих кластеров в сети применяются различные методы обнаружения сообществ.

Алгоритм

Мы исследовали различные традиционные алгоритмы обнаружения сообщества, такие как Girvan-Newman, Louvain, Clique и т. Д., Но большинство из этих алгоритмов имеют некоторые ограничения для нашего случая. После некоторых проб и ошибок мы вернулись к основам: коэффициент локальной кластеризации. Физический смысл локального коэффициента кластеризации представляет собой соотношение между «сколько рукопожатий произошло в группе» и «сколько рукопожатий с максимально возможным количеством рукопожатий было возможно в группе» . Вы можете думать о рукопожатии как о связанном ребре между двумя узлами. Это помогает нам измерить, насколько тесно связана группа. n (n-1) / 2 - максимально возможное рукопожатие среди n человек.

На рисунке 4 мы вычислили коэффициент локальной кластеризации (C) черных узлов для трех разных сетей. Здесь k представляет количество ребер среди соседей черных узлов. Кроме того, мы измерили средний вес на ребро, среднее количество подключенных ребер на соседа, а затем применили методы обнаружения выбросов, чтобы установить пороговые значения для каждой метрики.

Выводы и объем

Для реализации мы использовали Networkx и Pandas. Первоначально мы развернули три метрики для измерения плотности подключения в кластере, а позже мы изучили больше бизнес-идей. Например, специалисты по рассылке мошенничества обычно отменяют большую часть запросов от пользователей, не входящих в группы мошенников. Сравнивая результаты с нашими существующими правилами, мы обнаружили 76% -ное совпадение с нашим новым графическим подходом. Остальные были также признаны мошенническими после проверки при дальнейшем глубоком погружении.

Аналитика мошенничества - это непрерывные усилия, поскольку индустрия мошенничества со временем приспосабливается к стратегиям обнаружения мошенничества. Ни один автономный метод не может противодействовать мошенничеству со 100-процентной точностью. Чтобы индустрия цифровых перевозок оставалась безопасной и свободной от мошенничества, нам необходимо постоянно создавать решения, которые всегда на несколько шагов опережают мошенников.