Автор: Микио Огава, специалист по данным, работающий с финансовыми учреждениями в DataRobot Japan.

Переведено Фергусом Доббинсом

Оригинал статьи: https://www.datarobot.com/jp/blog/sophisticated-fraud-detection-with-ai/

Антифрод и ИИ

В последнее время новости о мошенническом снятии средств в финансовых учреждениях попали в заголовки газет. Это происшествие освещалось во многих новостных сообщениях, но на самом деле практически каждый день совершаются какие-то махинации, в том числе и в масштабах, не освещаемых в новостях. Сумма ущерба огромна, например, по данным Японской ассоциации кредитных карт, сумма мошеннического использования кредитных карт в 2019 году достигает 27,38 млрд иен.

В этом блоге я объясню, как ИИ может на самом деле реализовать меры по предотвращению мошенничества, затрагивая различные виды мошенничества.

Хорошей концепцией борьбы с мошенничеством является эшелонированная защита. Первоначально полученный из военной терминологии, это метод многоуровневой защиты в нескольких областях, а не защита в одном месте. Противодействие методам аутентификации, сетевая защита с использованием IPS/IDP и WAF, шифрование связи и данных для анонимизации самих данных, противодействие взлому администратором путем разделения полномочий, слежка путем аудита и мониторинга и т. д.

Точно так же с мошенничеством необходимо бороться с помощью контрмер. После того же выбора шифрования и аутентификации есть два варианта: вводить их или нет. И многие компании стремятся внедрить меры по борьбе с мошенничеством, используя логику, основанную на правилах. Однако после того, как эти правила будут введены, их необходимо постоянно обновлять с учетом постоянно меняющихся мошеннических действий.

В логике обнаружения важно не только обнаруживать мошенничество, но и правильно оценивать нормальные транзакции как нормальные. В крайнем случае, если все транзакции будут расценены как мошеннические, мошенничество не останется незамеченным, но обычные транзакции также будут остановлены, и сервис не будет работать. Поэтому в логике обнаружения мы обращаем внимание как на количество ложных срабатываний (определяемых как мошеннические, когда не мошеннические), так и на ложноотрицательных (мошеннических, но не обнаруженных).

Логика обнаружения часто основана на правилах, некоторые из которых предварительно зарегистрированы, а другие эвристически обновляются в соответствии с собственными транзакциями компании и прошлыми тенденциями мошенничества. В последнее время количество данных, которые можно получить из транзакций, может превышать несколько тысяч, а методы мошенничества быстро меняются, поэтому ручной поиск и обслуживание правил является тяжелым бременем.

ИИ очень эффективен в этой логике обнаружения. Быстро создав сложную модель из большого объема данных и используя ее в качестве модели обнаружения мошенничества, можно реагировать на мошенничество, которое меняется ежедневно. Однако внедрение ИИ не является универсальным подходом, и необходимо максимально повысить эффективность ИИ за счет выявления мошеннических структур и сочетания правильного подхода и операций.

Когда цель мошенничества ясна: контролируемое обучение

Обнаружение мошенничества, которое особенно легко обнаружить, происходит там, где ясно, является ли каждая транзакция мошеннической или нет. Если ущерб от мошенничества очевиден, есть большой стимул сообщить о нем как о мошенничестве. Например, в случае мошеннического использования кредитных карт и захвата аккаунта на сайтах электронной коммерции у жертвы есть стимул правильно сообщить о мошенничестве, чтобы предотвратить дальнейший ущерб и получить компенсацию. Это правильно называется мошенничеством.

Обучение с учителем эффективно в этом сценарии, потому что мошенничество правильно помечено. Для начала, если количество случаев мошенничества меньше 100, ИИ будет сложно изучить закономерность, поэтому давайте расширим определение мошенничества и разберемся с ним. При расширении определения мошенничества мы будем включать не только те, которые в итоге стали мошенническими, но и те, которые были определены как мошеннические в результате расследования и заранее удалены со стороны ярлыка мошенничества. Увеличивая количество случаев помимо тех, которые в конечном итоге понесли ущерб, мы можем легче обучаться с помощью машинного обучения.

Обязательно обратите внимание на транзакции, в которых модель ИИ с высокой вероятностью прогнозирует транзакцию как мошенническую, когда данные помечены как не мошеннические. В некоторых случаях жертва могла не заметить мошенничество, и при надлежащем рассмотрении оно оказывается мошенничеством.

Мошенничество с неизвестной целью: обнаружение аномалий, частично контролируемое обучение, прокси-цель

Если у вас нет полного понимания того, что на самом деле не так, вам нужен другой подход. В случаях отмывания денег и некоторых мошеннических списков виновные не раскрывают себя как мошенников, и, в отличие от повреждения кредитных карт, вовлеченные люди не несут прямого ущерба, поэтому обычно это неправильно помечается. Поэтому компаниям необходимо проявлять инициативу в маркировке.

Если большинство существующих транзакций невозможно проверить и мы не знаем, какие из них являются мошенническими, а какие нет, мы будем использовать алгоритмы обнаружения аномалий, частично контролируемое обучение и прокси-мишени.

Алгоритмы обнаружения аномалий могут находить аномальные транзакции по сравнению с исходной транзакцией. Даже неизвестное мошенничество может быть выявлено, когда оно демонстрирует беспрецедентные тенденции транзакций. Однако, поскольку он реагирует только на аномальные транзакции, во многих случаях неизвестные виды мошенничества объединяются и смешиваются с обычными транзакциями, и есть много транзакций, которые не обязательно являются мошенническими, даже если они являются аномальными транзакциями. Точность не высокая. Поэтому рекомендуется использовать его в сочетании с другими методами.

Полуконтролируемое обучение — это метод повторения обучения путем усиления нескольких правильных меток. Когда мы видим десятки мошеннических действий, а остальные транзакции остаются нетронутыми, мы сначала выполняем обучение с учителем на основе количественных целей. Модель, созданная на основе этого, используется для оценки исходных данных, а данные, которые считаются имеющими высокий риск мошенничества, обновляются как правильные данные и моделируются. При полуконтролируемом обучении требуется метод проб и ошибок, чтобы решить, какой порог использовать в качестве правильной метки и сколько раз обучение повторяется. Это гораздо более эффективное средство.

Другой метод использования прокси-мишеней может быть очень полезен, если у вас есть знания в области мошенничества, на которое вы нацелены. Окончательное вторичное воздействие мошеннических транзакций определяется знанием предметной области и изучением результатов моделирования.

Например, в отношении мошеннических контрактов, взимающих комиссионные, если существует структура, в которой комиссионные обеспечиваются наполовину, а затем с высокой вероятностью отменяются, мы будем ориентироваться на транзакции с высоким уровнем отмен. Могут существовать контракты с высоким процентом расторжений, которые не связаны с мошенничеством, но при наличии четкой закономерности коэффициент расторжения можно использовать в качестве прокси.

Другой пример прокси-сервера — таргетинг на дорогостоящие аккаунты. Если вы найдете таинственную хорошую учетную запись, которая никогда не отменяется, даже если вовлеченность почти нулевая, есть вероятность, что это подготовленная учетная запись для какого-то мошенничества. В этом случае компания хотела бы оставить учетную запись как есть, потому что это хорошая учетная запись с точки зрения поведения, но она может стать рассадником мошеннических транзакций. Для предотвращения мошенничества с этой учетной записью может потребоваться активная работа.

Развертывание модели обнаружения мошенничества с использованием ИИ

Метод развертывания

Если ваша традиционная система обнаружения мошенничества имеет сбор данных, мониторинг транзакций в реальном времени, возможности оповещения и высокую доступность, рекомендуется использовать этот актив. При использовании метода совмещения с обычной системой можно развернуть модель ИИ без изменения требований, которым удовлетворяет обычная система. Если систему можно подключить к API, считывание результатов оценки через API — это самый простой способ использовать точность ИИ как таковой. Однако, если частота транзакций высока, возникает проблема, связанная с тем, что расчет не поспевает за соединением API. Системы обнаружения мошенничества с такими требованиями часто используют базу правил, поэтому мы берем на себя задачу извлечения полезных значений функций из ИИ и переписывания модели в правила.

Если ни соединение API, ни регистрация обновлений на основе правил невозможны, это можно решить, установив время обнаружения в два этапа. Поскольку для этого требуется модель ИИ в качестве дополнения к существующей системе, производительность в реальном времени будет потеряна. Проверка на мошенничество выполняется путем объединения системной и человеческой проверки. Можно значительно сократить количество человеко-часов, организовав последовательность задач. Поскольку это внешнее дополнение, его нельзя использовать для транзакций в реальном времени, но на самом деле это метод развертывания, который часто используется для поддержки AML.

Важность непрерывного моделирования (MLOPs)

Самым большим преимуществом использования ИИ в мониторинге мошенничества является непрерывное моделирование, а не точность. Преступники, которые могут осуществлять различные методы атак, будут придумывать новые методы и совершать мошенничество с использованием новых методов атак, даже если существующие методы будут заблокированы. Даже в ИИ, который учится на прошлых данных, крайне сложно предотвратить первое мошенничество, но как быстро можно пресечь подобные уловки, или как предотвратить мошенничество из прошлых транзакций, которые уже подверглись атаке? Акт очистки того, что применимо, очень важен. ИИ может не только повысить точность ручного поиска закономерностей, но и значительно сократить время работы, благодаря чему можно быстро и непрерывно обновлять логику обнаружения.

Помимо сокращения времени моделирования, также необходимо быстро замечать изменения в схемах мошенничества и общих тенденциях. Поэтому важно отслеживать дрейф данных, чтобы увидеть, изменилась ли точность существующей операционной модели и изменился ли характер самой транзакции.

Если точность снижается, возможно, возникла новая схема мошенничества, и существующая логика обнаружения больше не в состоянии скрыть ее. В этом случае моделирование должно быть выполнено снова на основе новой неверной метки. Также необходимо быть осторожным, если точность становится слишком хорошей. В этом случае уменьшился тип мошенничества, которое не было выявлено, или увеличился тип мошенничества, которое легко обнаружить. Однако с точки зрения мошенников нет смысла прекращать использование методов, которые все еще действительны, и увеличивать количество методов, которые легко обнаружить. Метод атаки изменился, и сама служба больше не является целью, но в худшем случае мошенничество, которое невозможно пометить (определить как обычное с точки зрения данных), увеличивается. В этом случае должны быть реализованы методики, описанные выше для неизвестных видов мошенничества.

Далее я объясню, почему мы должны обращать внимание на дрейф данных. Дрейф данных означает, что распределение данных изменилось по сравнению с распределением данных во время обучения. Дрейф данных — это статистическая информация для всей транзакции, поэтому даже если структура мошеннических транзакций, которая составляет от нескольких процентов до менее 1%, изменится, это не окажет большого влияния. Однако дрейф данных может увеличить количество ложных срабатываний в моделях обнаружения мошенничества. В последнее время из-за безналичных мер по продвижению и влияния нового коронавируса люди всех возрастов используют безналичные деньги. Использование обычной модели обнаружения мошенничества в такой ситуации может привести к тому, что модель обнаружения ошибочно определит, что обычная транзакция является мошеннической, поскольку это беспрецедентное движение. Чтобы подавить ложные срабатывания, необходимо обновить модель обнаружения, когда происходит дрейф данных.

Подход DataRobot к обнаружению мошенничества

С DataRobot AutoML вы можете оставить разработку математических функций, выбор алгоритма и настройку гиперпараметров, необходимых для обработки данных, на DataRobot. В результате лицо, ответственное за обнаружение мошенничества, может сосредоточиться на самом механизме мошенничества и ответных действиях до и после обнаружения, повышая при этом точность логики обнаружения.

Кроме того, мы добавили два шаблона в метод развертывания: один напрямую использует модели ИИ, а другой делает модели основанными на правилах. DataRobot имеет механизм, который может реализовать оба шаблона. Поскольку схема прямого использования модели ИИ такая же, как и при обычном прогнозировании, мы в основном будем вводить функции, тесно связанные с обнаружением мошенничества, такие как функции генерации на основе правил, которые обычно не рассматриваются.

Точка доступа

Большое количество правил генерируется автоматически путем создания системы моделей Rulefit. Для всех правил рассчитывается соотношение применимых транзакций и вероятность того, что цель будет положительной при применении правила, поэтому найти эффективные правила несложно. Он также имеет функцию, которая визуализирует близость между правилами, поэтому вы можете визуально понять, какие виды мошенничества распространены.

Рейтинговая таблица

DataRobot может вывести хорошо настроенную обобщенную аддитивную модель в виде рейтинговой таблицы. Поскольку реализованы как условия взаимодействия, так и автоматическое обнаружение, можно обнаружить, что конкретная комбинация признаков имеет неверный эффект. Пожалуйста, обратитесь к этому блог для деталей.

Эврика

Eureqa, который является генетическим алгоритмом, имеет конечный результат одной формулы. В зависимости от настроек можно рассчитать одну модель типа формулы с наилучшим соответствием из более чем сотен тысяч формул. Самая большая особенность заключается в том, что время подсчета очков значительно сокращается, потому что оно становится одной формулой. Это может быть очень полезно для обнаружения правил мошенничества, требующих производительности в режиме реального времени. Это также похоже на DataRobot Prime, где вы можете визуализировать и выбрать, насколько сложность формулы влияет на точность.

Алгоритм обнаружения аномалий

DataRobot предлагает целевое обнаружение аномалий и обнаружение нецелевых аномалий, но обнаружение мошенничества, в частности, использует конфигурацию целевого обнаружения аномалий. В этом случае создается модель обнаружения аномалий со значениями признаков, исключающими цель, но также можно проверить точность по сравнению с исходной целью, показывая, насколько аномальная транзакция связана с прошлым мошенничеством.

В этой области сложно определить, что представляет собой аномалию, но с DataRobot вы можете попробовать несколько алгоритмов обнаружения аномалий одним щелчком мыши, чтобы найти алгоритм обнаружения аномалий, который работает лучше всего. Также можно легко комбинировать алгоритм с обычным алгоритмом обучения с учителем.

Функция MLOps

DataRobot предоставляет не только функцию подтверждения статуса API, необходимую для нормальной работы системы, но также систему контроля точности и функцию обнаружения дрейфа данных, необходимую для MLOps.

Что касается функции контроля точности, то можно связать и управлять результатами прогноза и фактическими измеренными значениями, которые будут найдены позже. Если вы используете API, прогнозируемые значения сохраняются непосредственно в DataRobot, поэтому вы можете проверить изменение точности с течением времени, загрузив фактические измеренные значения. Когда API не используется, ту же функцию может использовать метод агента.

Что касается функции дрейфа данных, то можно проверить, в каком значении признака происходит дрейф в конкретном временном диапазоне с момента обучения. В частности, если значение признака, которое подчеркивает модель, значительно дрейфует, модель может быть не в состоянии продемонстрировать свою обычную производительность, поэтому требуется осторожность. Вкладка Data Drift DataRobot автоматически сохраняет статистическую информацию о прогнозируемых значениях при использовании API, как и функция контроля точности. Можно отобразить возникновение дрейфа по двум осям и просмотреть подробное возникновение дрейфа для каждой величины элемента. Также возможно использование агентного метода.

Поскольку DataRobot может самостоятельно извлекать эти функции MLOps с помощью API, можно получать статус функций деградации модели в виде предупреждений.

Краткое содержание

Есть довольно много компаний, которые внедрили ИИ в свою логику обнаружения и добились большой годовой рентабельности инвестиций, используя более сложные решения для обнаружения мошенничества с использованием ИИ. ИИ может работать в сочетании с существующими системами для создания новых и улучшенных способов предотвращения мошенничества. Внедрение ИИ само по себе не всегда предотвращает мошенничество. Идеальной логики обнаружения мошенничества не существует. Люди и ИИ должны работать вместе, чтобы противостоять этой угрозе, учитывая последние тенденции мошенничества.