Мосты между мирами: совместная история науки о данных и принятии решений

Совершенно очевидно, что сотрудничество и различные мнения - важные движущие силы инноваций. В конце концов, это не случайно, что Сотрудничество является одной из основных ценностей PayPal и частью нашей миссии. В этой статье мы хотели поделиться историей о том, как трехмесячное сотрудничество между специалистом по обработке данных и специалистом по принятию решений о рисках принесло потрясающие результаты, которые стали возможны только благодаря объединению двух усилий.

В начале 2021 года Адам Инзельберг присоединился к команде Horizon в организации Global Data Sciences (GDS) в рамках своей первой ротации в программе PayPal Technology Leadership Program (TLP). TLP - это двухлетняя программа ротации для различных ролей, отделов и сайтов в PayPal, направленная на повышение лидерских навыков, а также технологический и культурный опыт. Ежегодно выбираются 10 сотрудников PayPal.

Перед тем, как присоединиться к TLP, Адам потратил годы на разработку и управление стратегиями управления рисками в нескольких доменах PayPal. За это время он получил знания об обычных случаях мошенничества, понимание бизнесом баланса между предотвращением мошенничества и хорошим пользовательским интерфейсом, а также умное принятие решений.

Адаму поручили работать над экспериментальным проектом с Иланом Воронелем, старшим специалистом по анализу данных в команде Horizon, команде, которая создает горизонтальные инфраструктуры и решения для анализа данных, обслуживающие все группы специалистов по анализу данных в PayPal, включая риски, продукты и т. Д. Маркетинг и др. Помимо прочего, Илан обладает обширным опытом в области крупномасштабных кластерных решений, которые имели решающее значение для этого типа проектов.

Что мы пытались решить?

Предотвращение мошенничества постоянно развивается. Подобно тому, как наши инструменты предотвращения становятся более сложными, мошенники разрабатывают новые инновационные решения той же сложности. Мы должны быть на шаг впереди, чтобы сохранить стену высокого уровня защиты от мошенничества, которой славится PayPal.

Проблема, которую мы часто видим в этой области, - это масштабные атаки на наши системы, когда пользователи создают группы учетных записей с общими характеристиками и поведением учетных записей. Несмотря на то, что наши решения действительно улавливают большинство из них, все еще остаются те хитрые учетные записи, которые остаются незамеченными. В этом проекте мы хотели посмотреть, может ли использование новых непроверенных методов дать результаты, которых мы до сих пор не видели в PayPal.

После множества дискуссий и мозговых штурмов мы пришли к двум методам:

1. Кластеризация на основе контролируемых связей графов

2. Подход неконтролируемой кластеризации

Метод 1 - Кластеризация на основе контролируемых связей графов - Адам Инзельберг

В этом новом методе используется собственное решение на основе связывания графиков, которое позволяет нам подключаться между учетными записями на основе различных параметров. Это надежное решение с очень высокой точностью, которое используется в нескольких доменах компании. В текущем состоянии одним из ограничений является количество переходов, то есть количество уровней ссылок, которые он может создать для данной учетной записи.

Объем данных, которые мы получаем для каждого дополнительного перехода, растет экспоненциально до точки, когда после второго перехода данные становятся чрезвычайно большими и не могут быть оценены в нормальном временном интервале.

В качестве примера предположим, что каждая учетная запись в нашей базе данных связана с несколькими сотнями учетных записей, а мы оцениваем только две учетные записи. Первый переход будет составлять несколько сотен, но второй переход может уже достигнуть нескольких сотен тысяч. Третий переход будет огромным, и нам, очевидно, нужно оценить более двух учетных записей → он не масштабируемый.

Следовательно, нам нужно было найти способ достичь N числа переходов (N ›2), но иметь разумное время вычислений, чтобы его можно было использовать в реальных условиях. Нам удалось значительно сократить время, необходимое для вычислений, не включая количество переходов, а просто отфильтровав незначительные данные. В данном случае это все аккаунты, которые мы не считаем мошенническими.

Чтобы предсказать плохие ссылки на учетные записи, мы построили классификатор XGBoost, используя функции связывания графиков, а также другие функции мягких ссылок, которые, как известно, указывают на мошенническую деятельность. Мы обучили модель на двух разных отдаленных таймфреймах и на собственном теге. Оттуда мы получили длинный список пар счетов, которые, по нашему мнению, оказались плохими. Это существенно сократило объем данных, сохранив при этом подавляющее большинство нашей целевой группы.

Наконец, мы могли построить наши кластеры, используя для этого рекурсивную методологию. Вот пример того, как это работает:

У нас есть список учетных записей, и учетные записи связаны с каждой учетной записью. Допустим, учетная запись A связана с B и C, учетная запись B связана с D и E, а учетная запись E связана с F и G.

В этом случае мы получаем генеалогическое древо из семи учетных записей, связанных тремя слоями (переходами).

Итак, давайте обобщим процесс: мы начнем с детализации до самой высокой «буквенной» учетной записи, расположенной в слое N. Затем мы собираем все связанные учетные записи из нижней части этого генеалогического древа. У нас всегда будет последний слой N, поскольку мы используем ограничение по дате в качестве механизма остановки.

В результате образуется один большой кластер учетных записей, которые с высокой вероятностью могут быть связаны и могут быть мошенническими.

В реальном мире наши кластеры намного сложнее, они состоят из гораздо большего числа слоев. Этот метод оказался относительно быстрым и может обрабатывать весь объем данных, имеющихся в наших системах. Результатами мы поделимся в последнем абзаце этой статьи.

Метод 2 - Неконтролируемый подход - Илан Воронель

Здесь мы хотели попробовать нестандартное решение и перейти к более инновационному и нестандартному мышлению. Вместо контролируемого метода, который обычно используется в решениях по предотвращению мошенничества, в данном случае мы хотели посмотреть, может ли неконтролируемое решение дать отличные результаты.

В этом решении мы использовали две неконтролируемые модели: PCA для уменьшения размерности и DBSCAN для кластеризации точек в кластеры.

На первом этапе, после очистки данных, мы преобразовали данные в только числовые данные в качестве входных данных для модели уменьшения размерности, PCA. Мы начали с ~ 100 функций и сократили их до трехмерного вектора.

На втором этапе мы попытались сгруппировать эти трехмерные векторы в группы. Поскольку мы не знали, сколько у нас групп и каковы их размеры, мы использовали алгоритм DBSCAN. Алгоритм DBSCAN очень полезен из-за того, как он строит кластеры. Он не требует заранее определенного количества кластеров и не будет автоматически подключать точки данных, если они не используются для создания кластера. В нашем случае это было чрезвычайно полезно, поскольку мы не знали, какие точки данных имели отношение к созданию кластера.

Теперь у нас есть кластерные назначения для точек данных. Сначала мы оценили кластеры с использованием баллов по силуэту и чистоте. Силуэт используется для определения плотности и разделения кластеров, а чистота помогает нам понять, насколько хорошо каждый из кластеров является однородным при пометке, которая у нас была.

Как только мы достигли достаточно хорошего результата, мы начали создавать объекты на уровне кластеров. Здесь мы попытались упростить ситуацию и просто выполнить простые агрегаты для каждого из кластеров, такие как сумма, среднее, медианное значение и т. Д.

На заключительном этапе мы обучили классификатор GBT, используя функции уровня учетной записи и кластера, для обнаружения плохих учетных записей.

Результаты и сводка

Прежде чем перейти к результатам, мы думаем, что этот проект доказал бесценность разнообразного опыта, знаний и мнений. На протяжении всего проекта Илан использовал свой опыт, чтобы определить, какие модели науки о данных нам следует использовать, как использовать интегрированные системы больших данных PayPal, и удостоверился, что мы применяем правильные методы при разработке и измерении наших методов. Адам использовал свой опыт, чтобы указать, какие точки данных имеют решающее значение для обнаружения мошенничества, какие теги мы должны использовать и какие показатели мы должны оценивать, чтобы сообщить о нашем успехе с финансовой точки зрения.

Результаты этого проекта очень многообещающие. Обе методологии доказали, что обнаруживают группы мошеннических счетов с очень высокой точностью, точностью и отзывчивостью. Они будут использоваться в дальнейшем для укрепления нашей линии защиты и поддержания высоких стандартов обслуживания клиентов.

Эта работа вызывает интерес к сотрудничеству. Что дальше? Маркетинг и наука о данных? Риск и продукт? Комбинации бесконечны. В конце концов, такие инициативы доходят до наших клиентов и улучшают их опыт. Поскольку мы придерживаемся подхода, ориентированного на клиента, для этой цели очень важно попробовать такое сотрудничество.

Мосты между мирами: совместная история науки о данных и принятии решений

Что мы пытались решить?

Метод 1 - Кластеризация на основе контролируемых связей графов - Адам Инзельберг

Метод 2 - Неконтролируемый подход - Илан Воронель

Результаты и сводка

Вопросы по теме