Возможно, вы не ожидаете, что обнаружение мошенничества с кредитными картами будет иметь много общего с упреждающим блокированием передачи ВИЧ, но это так! Я здесь, чтобы объяснить, почему аналитики по обнаружению мошенничества и ученые в области общественного здравоохранения должны проводить больше времени вместе.

Между этими областями есть три основных области сходства, которые можно разбить следующим образом:

1. Проблемы очень похожи

  • Раньше лучше
  • Ложные срабатывания это плохо
  • Ложноотрицательные результаты хуже

2. Решения могут быть очень похожими

  • Аналитические трубопроводы сделаны из одних и тех же деталей

3. Препятствия очень похожи, если не одинаковы

  • Данные не сбалансированы
  • На данные влияет задержка
  • Значение данных может меняться со временем
    — необходим человеческий контроль
  • Данные могут быть предвзятыми

Вас не убедил этот крайне упрощенный список? Обсудим подробнее.

1. Проблемы очень похожи

Одна из главных причин сходства между этими двумя областями заключается в том, что результаты, которые мы хотим отслеживать, обусловлены поведением человека. Хотя мошенничество иногда выполняется с помощью автоматизированных средств, оно осуществляется реальными людьми, использующими обычные старые модели человеческого мышления, чтобы придумывать методы финансовой эксплуатации. Как вирус, ВИЧ не имеет собственных мыслей, но модели его распространения почти полностью определяются поведением человека. Каждый день люди принимают решения о сексуальных практиках, употреблении инъекционных наркотиков и участии в профилактических мероприятиях, которые контролируют передачу ВИЧ новым людям. В обоих случаях влияние человеческого поведения создает сложный и постоянно меняющийся ландшафт для систем мониторинга и обнаружения, но также предлагает дополнительное измерение для людей, создающих системы обнаружения, которые они могут использовать.

Оба случая также направлены на обнаружение относительно редкого исхода, который является нежелательным и вредным не только для тех, кто непосредственно затронут, но и для поддерживающих их систем. Я специально собираюсь обсудить мониторинг передачи ВИЧ в регионах, которые уже достигли высокого уровня эпидемического контроля, поэтому, несмотря на то, что пулы инфицированных могут быть большими, подавляющее большинство людей не передают вирус. Когда передача все-таки происходит, заражение приводит не только к пожизненному лечению и стигматизации, но и к финансовому давлению на индивида и системы общественного здравоохранения. Хотя финансовое мошенничество обычно менее опасно для жизни, оно может быть неприятным и дорогостоящим как для клиентов, предприятий, так и для финансовых учреждений. Мошенничество обходится торговцам в миллиарды долларов каждый год, при этом каждый доллар, потерянный в результате мошенничества, обходится финансовым учреждениям в еще 4,36 доллара связанных с этим расходов. Клиенты также могут покрыть дополнительные расходы, связанные с мошенничеством, которое остается незамеченным всеми сторонами.

Раньше лучше

Как при обнаружении мошенничества, так и при мониторинге ВИЧ цель состоит в том, чтобы как можно раньше выявить возникновение какого-либо нежелательного случая. Чем раньше банк или финансовая служба узнает о мошенничестве с кредитными картами, тем лучше. Если они смогут определить это достаточно рано, они могут даже вообще предотвратить это, отклонив попытку транзакции. Хотя во многих случаях оптимальное количество мошенничества может быть ненулевым, это не делает возможность обнаружения, измерения и мониторинга мошенничества менее полезной.

История с мониторингом ВИЧ очень похожа. Чем раньше у человека будет выявлена ​​ВИЧ-инфекция, тем лучше. Раннее обнаружение позволяет инфицированным людям быстро получить лекарства, которые ограничат их вирусную нагрузку, что является важным шагом в поддержании хорошего здоровья и предотвращении дальнейшей передачи. Однако, как и в случае с мошенничеством с кредитными картами, в идеальном мире мы бы не только обнаружили передачу ВИЧ как можно скорее, но и остановили бы ее до того, как она произойдет.

Несмотря на то, что при попадании ВИЧ в организм, конечно же, нет процесса запроса и разрешения, существует множество механизмов, которые могут предотвратить передачу, если они будут задействованы достаточно рано. Эффективная профилактика может быть достигнута за счет определенного сочетания воздействия на лиц, которые не инфицированы, но относятся к группе высокого риска, и на тех, кто уже инфицирован ВИЧ. Входящие передачи могут быть заблокированы регулярным тестированием, профилактическим лечением, знанием безопасного секса и методов употребления наркотиков, презервативами и чистыми инъекционными принадлежностями. Исходящую передачу от ВИЧ-инфицированных можно остановить, придерживаясь графиков приема антиретровирусных препаратов, регулярных тестов на вирусную нагрузку и регулярных тестов на лекарственную устойчивость.

Ложные срабатывания это плохо

Вмешательство является ресурсоемким, поэтому методы, которые помогают командам общественного здравоохранения решить, где их время и деньги будут иметь наибольшую отдачу, имеют решающее значение для достижения и сохранения контроля над локальными вспышками. Поскольку эти методы направляют поток превентивной силы, очень важно свести к минимуму ложные срабатывания, чтобы не тратить ресурсы на группы людей, которые имеют очень низкий риск дальнейшей передачи. Излишнее вмешательство также может быть разрушительным и интенсивным для инфицированных и лиц, находящихся в группе риска, поэтому его правильное выполнение также является важным элементом в укреплении уважения и доверия в сообществе.

Доверие также является важным фактором в контексте обнаружения мошенничества, где ложные срабатывания также нежелательны. Если финансовое учреждение или поставщик услуг собирается отслеживать транзакции и потенциально останавливать их, когда они предпринимаются, важно, чтобы это решение было обоснованным. Беспричинное отклонение вашей карты не только неудобно и смущает, но также снижает доверие к финансовому учреждению и может лишить продавца будущего бизнеса, вызывая отток клиентов.

Ложноотрицательные результаты хуже

В обеих областях сведение к минимуму ложноотрицательных результатов, возможно, даже важнее, чем сведение к минимуму ложноположительных результатов. Быть жертвой мошенничества может быть так же неудобно, стыдно и подрывать доверие, как отказ от карты, но, что еще хуже, упущение даже небольшого количества мошеннических транзакций может стоить предприятиям и финансовым учреждениям огромных сумм денег. расходы на погашение, сборы за возврат средств, судебные издержки и усилия по восстановлению.

Последствия ложноотрицательных результатов еще более серьезны в контексте передачи ВИЧ. Система мониторинга, которая пропускает маркировку риска передачи и перенаправляет ресурсы в другое место, будет иметь последствия, изменяющие жизнь, если в противном случае произойдет передача, которую можно было бы предотвратить. Этот эффект усугубляется тем фактом, что продолжающаяся передача вируса представляет собой экспоненциальный процесс, а это означает, что последствия даже одной пропущенной предотвратимой передачи могут иметь далеко идущие последствия.

Так как же строятся системы мониторинга для устранения всех этих морщин, добавленных к проблеме? Что ж, здесь все становится действительно интересным — подходы, используемые для обнаружения потенциальной передачи в будущем, часто аналитически очень похожи на подходы, используемые для обнаружения риска мошенничества.

2. Решения могут быть очень похожими

Не все системы обнаружения мошенничества имеют одинаковую внутреннюю работу, но на чрезвычайно упрощенном уровне большинство из них сводится к одной и той же задаче: вычленить меньшинство проблемных дел из большинства безобидных законных дел. Поддержание хорошо контролируемой эпидемии ВИЧ представляет собой ту же проблему: выявление меньшинства передающих групп среди большинства не передающих людей, которые эффективно участвуют в профилактике. Обе области разработали набор способов решения этой проблемы, которые часто основаны на очень похожих аналитических схемах. Прежде чем я перейду к сравнению некоторых конкретных примеров, давайте рассмотрим некоторую справочную информацию.

Во-первых, разница между мошенничеством с транзакциями и мошенничеством с продавцами: мошенничество с транзакциями происходит путем мошеннических списаний с отдельных кредитных карт, тогда как мошенничество с продавцами происходит, когда мошенник выдает себя за законный бизнес и принимает платежи от неосведомленных клиентов. Торговое мошенничество также может иметь место, когда мошенник создает законно выглядящую учетную запись на платформе обработки платежей, а затем добавляет в нее информацию с нескольких украденных карт. В обоих случаях мошенничества с продавцами мошенники могут успешно получать выплаты в течение некоторого времени, но им придется отказаться от своих учетных записей и начать все сначала, когда их поймают. Это означает, что торговцы-мошенники часто имеют возможность создавать множество учетных записей, чтобы поддерживать поток мошеннических средств.

Далее давайте рассмотрим, как мониторинг передачи ВИЧ часто работает в регионах с относительно высоким уровнем эпидемического контроля. Следует отметить важное отличие: в случае с ВИЧ чрезвычайно важно сохранять конфиденциальность в отношении инфицированных лиц из уважения к их безопасности и неприкосновенности частной жизни перед лицом постоянной стигмы. Чтобы сохранить конфиденциальность, люди делятся на группы, называемые передающими кластерами. Кластеры передачи очерчены на основе генетического сходства последовательностей РНК ВИЧ у разных людей. Данные о последовательности обычно собираются во время планового лечения ВИЧ, поскольку это необходимо для тестирования на лекарственную устойчивость.

ВИЧ имеет очень высокую скорость эволюции (даже для вируса), поэтому люди, находящиеся ближе друг к другу в цепочке передачи, будут иметь больше сходных последовательностей, чем люди, находящиеся в более отдаленных точках цепи. Например, представьте сценарий, в котором человек А заражает человека Б, который затем заражает человека С. Последовательности ВИЧ у человека А и В будут иметь большее сходство, чем у человека А по сравнению с человеком С, точно так же, как последовательности, полученные от человека Б и С будет иметь большее сходство, чем у людей А и С. Поскольку мы не можем быть уверены, что не пропустили данные последовательности из одного или нескольких промежуточных звеньев, мы никогда не можем использовать генетическое сходство, чтобы утверждать, что конкретный человек заразил другого человека. . Тем не менее, концепция кластера передачи позволяет нам создавать группы, которые, вероятно, связаны недавними передачами, а это все детали, необходимые для принятия эффективных мер общественного здравоохранения.

Ресурсы общественного здравоохранения ограничены, поэтому определение уровней риска и ранжирование кластеров помогает гарантировать, что ресурсы общественного здравоохранения работают на подавление максимально возможного числа будущих случаев с их ограниченным охватом. Во многих регионах уровень риска определяется на основе сочетания эвристики и человеческого опыта, но появляется все больше и больше решений, которые могут количественно оценивать риск передачи вируса с помощью статистического моделирования и машинного обучения.

Аналитические трубопроводы сделаны из одних и тех же деталей

Если вы кое-что знаете о системах обнаружения мошенничества, некоторые подходы к мониторингу передачи ВИЧ могут показаться вам знакомыми. Если нет, то позвольте мне обратить ваше внимание на некоторые параллели. В качестве конкретного примера я собираюсь использовать подход под названием кластеризация подобия, используемый платформой обработки платежей Stripe для борьбы с мошенничеством продавцов. Поскольку торговцы-мошенники часто имеют возможность создавать множество учетных записей, сходство между их учетными записями может быть использовано для их идентификации. Некоторые детали внимательным мошенникам легко варьировать в разных аккаунтах, но с другими может быть сложнее. Например, легко создать новую дату рождения, но не так просто получить новый банковский счет для внесения средств. Таким образом, если не сразу, то в конце концов мошенники начинают создавать учетные записи с некоторой степенью сходства.

Подобные учетные записи могут быть связаны в кластеры, и в случае Stripe эта кластеризация достигается с помощью алгоритмов машинного обучения, обученных прогнозировать включение или исключение кластера на основе известных эталонных кластеров. Затем прогнозируется кластерный риск на основе обучающих данных, состоящих из характеристик учетных записей из эталонных кластеров с известной степенью мошеннической активности. Мониторинг передачи ВИЧ аналогичен тем, что сходство оценивается по двум отдельным показателям: сначала кластеры передачи определяются исключительно на основе генетического сходства последовательностей, затем этап машинного обучения прогнозирует риск кластера передачи на основе того, имеет ли кластер сходные характеристики для сравнения. кластеры, о которых известно, что они передавались вскоре после измерения в прошлом. В целом, оба решения могут быть сведены к одним и тем же элементам конвейера: кластеризация на основе некоторой метрики подобия, затем ранжирование кластеров на основе оценки риска, выведенной из атрибутов кластера, которые, как известно, приводят к обнаружению результата.

Методы обнаружения мошенничества с транзакциями также используют аналогичные подходы машинного обучения. В качестве примера возьмем другую систему, разработанную Stripe, под названием Радар. Radar оценивает каждую транзакцию, обработанную через Stripe, и присваивает ей оценку, описывающую вероятность того, что транзакция является мошеннической. Этот подход, по сути, является вторым этапом описанного выше подхода кластеризации подобия, используемого изолированно, то есть прогнозирования мошенничества с помощью машинного обучения на основе атрибутов известных эталонных транзакций в обучающих данных. Хотя удаление аспекта кластеризации отличает этот подход от обычных методов мониторинга ВИЧ, процедура прогнозирования оценки риска на основе атрибутов известных эталонных случаев остается прежней и может быть реализована с помощью аналогичных алгоритмов. Это особенно верно из-за сходства характеристик наборов данных, используемых в этих двух областях. В следующем разделе я расскажу больше о том, как сложности наборов данных, такие как дисбаланс, дрейф концепций, задержка и предвзятость, создают препятствия для подходов машинного обучения, используемых в обоих случаях, которые необходимо соответствующим образом устранять, чтобы делать полезные прогнозы.

3. Препятствия очень похожи, если не одинаковы

Данные не сбалансированы

Я обсуждал это немного ранее, но как при обнаружении мошенничества, так и при мониторинге передачи ВИЧ наборы данных страдают несбалансированностью. Цель состоит в том, чтобы обнаружить положительные результаты, возникающие в крайнем меньшинстве случаев. Эта проблема, также называемая нулевой инфляцией, создает проблемы для многих готовых алгоритмов машинного обучения. Если 98 % набора данных помечены как «не мошеннические» или «без передачи», то алгоритм может легко достичь точности 98 %, прогнозируя отрицательное значение в 100 % случаев. Точность 98% может звучать очень хорошо, но в этом случае алгоритм фактически пропускает каждый отдельный случай, который он должен обнаруживать.

Дисбаланс можно смягчить несколькими методами, относящимися к обеим областям. Повторную выборку можно использовать для недостаточной выборки класса большинства и/или избыточной выборки класса меньшинства. В случае непрерывного результата, такого как оценка риска, модели барьеров можно использовать для разделения прогноза на два этапа: один предсказывает положительный или отрицательный результат, а второй предсказывает непрерывный числовой результат, если положительное «препятствие» преодолено. Оптимизация обучения на основе кривых точности и полноты также может дать более четкое представление о том, что на самом деле делает модель, чем совокупные оценки, такие как точность.

На данные влияет задержка

Второй проблемой как при мошенничестве, так и при вирусной передаче наборов данных является задержка. Задержка возникает, когда экземпляры обучающих данных собираются через некоторое время после того момента времени, который они должны представлять. В случае обнаружения мошенничества это может произойти, когда финансовое учреждение или его клиенты не спешат выявлять мошеннические действия и сообщать о них. Это означает, что обучающие данные, классифицированные как «отсутствие мошенничества» или получившие низкий балл риска, на самом деле могут содержать по крайней мере несколько неправильно помеченных экземпляров в любой момент времени. В случае с ВИЧ латентность возникает из-за того, что ВИЧ-инфекция не сразу очевидна, а это означает, что людям часто требуется время, чтобы пройти тестирование и поставить диагноз после заражения. Это означает, что так же, как и при обнаружении мошенничества, измерения того, растет ли кластер передачи за счет дальнейших передач, могут отставать от реальных данных.

Поскольку задержка часто носит системный характер и возникает во время создания исходного набора данных, ее может быть сложнее устранить во время аналитических процессов, которые происходят ниже по течению. Однако в обеих областях разработаны методы борьбы с задержкой. Системы обнаружения мошенничества могут оценивать вероятность неправильной классификации, обрабатывать недавно собранные данные отдельно от более старых подтвержденных данных или использовать специализированные ансамблевые модели для одновременной обработки шума, вызванного скрытыми ошибочными классификациями и дисбалансом классов. Системы мониторинга передачи вируса могут попытаться скорректировать задержку на основе других характеристик, относящихся к времени передачи, таких как количество Т-клеток CD4+ и вирусная нагрузка.

На данные влияет дрейф концепций

Еще одна проблема, связанная с наборами данных в обеих областях, — это дрейф концепций. В наборе данных с дрейфом концепции взаимосвязь между признаками и прогнозируемым результатом может меняться со временем. Эта проблема может привести к тому, что когда-то превосходные модели со временем потеряют полезность, а также может стать причиной задержки. При обнаружении мошенничества происходит дрейф концепций, поскольку характер мошенничества меняется с течением времени. По мере того как финансовые учреждения улавливают тактику мошенничества и разрабатывают системы для их эффективного обнаружения и пресечения, мошенники вынуждены развиваться и находить новые методы. Это означает, что функция, которая могла быть сильным индикатором мошенничества в один год или десятилетие, может перестать иметь прогностическую ценность в следующем.

То же самое может произойти и в случае с ВИЧ, поскольку политика общественного здравоохранения, финансирование, знания сообщества и участие в уходе со временем меняются. Последствия пандемии COVID-19 являются классическим примером этого. Ограничения, введенные для сдерживания распространения COVID-19, не только привели к изменениям в сексуальном поведении и практике употребления наркотиков, но и создали препятствия для доступа к профилактической помощи. Влияние этих изменений на передачу неодинаково между кластерами передачи, связанными с разными факторами риска, изменяя взаимосвязь между этими признаками и прогнозируемым исходом передачи. Например, значение признака, описывающего, употребляет ли индивидуум инъекционные наркотики, будет отличаться в годы до пандемии по сравнению с годами пандемии и годами после пандемии, затронутыми эффектами передачи ниже по течению.

Обе области могут смягчить последствия дрейфа концепций, используя знания предметной области для тщательного создания наборов обучающих данных с учетом контекста. Однако полное устранение последствий дрейфа концепций может быть очень трудным, поскольку сдвиги в основных отношениях в данных могут остаться незамеченными даже экспертами в предметной области.

Необходим человеческий контроль

Дрейф концепций является одной из основных причин того, что в использовании количественных систем по-прежнему необходимо участие человека в определенной степени, направленное на упрощение обнаружения и мониторинга как мошенничества, так и вирусов. Постоянно меняющиеся ландшафты контекста требуют человеческого разума, чтобы гарантировать, что аналитические шаги, ведущие к предсказанию, по-прежнему актуальны.

Чрезвычайно важно учитывать, что как мошенничество, так и передача ВИЧ обусловлены поведением человека. Как утверждает Лайлах Баумер в блоге Riskified, люди по-прежнему превосходят машины с точки зрения понимания человеческого поведения. Баумер приводит интересный пример: из-за российского вторжения в Украину в 2022 году многие известные российские торговые посредники переместили склады, платежные адреса и адреса доставки в соседние страны, но сохранили свой российский адрес электронной почты, а иногда и свои российские IP-адреса. Такое поведение может показаться сигналом мошенничества для алгоритма машинного обучения, но аналитик-человек, способный учитывать геополитические обстоятельства, гораздо лучше понимает значение этого нового шаблона и то, вызывает ли он беспокойство. Люди не действуют исключительно на основе прошлого опыта, и наше поведение подвержено влиянию многих других постоянно меняющихся сил, что делает моделирование моделей, управляемых людьми, сложной задачей.

На данные влияет предвзятость

Последней серьезной проблемой в наборах данных о мошенничестве и вирусной передаче является предвзятость. Поскольку алгоритмы машинного обучения принимают решения исключительно на основе прошлых данных, они с большей вероятностью пропустят случаи, не представленные эффективно набором обучающих данных. В случае мошенничества это означает, что определенные подходы, которые легко идентифицировать, скорее всего, обогащаются в обучающем наборе данных. Со временем это может еще больше исказить набор обучающих данных, поскольку новые случаи мошеннической деятельности выявляются и добавляются на основе сходства с теми, которые уже были идентифицированы и помечены.

Та же проблема может возникнуть в контексте ВИЧ, где устоявшиеся эвристики по-прежнему управляют многими традиционными системами мониторинга в сочетании с человеческим опытом. Это означает, что большая часть данных, доступных для использования в качестве обучающих данных в новых подходах, основанных на машинном обучении, может быть смещена в сторону случаев роста кластера передачи, которые традиционно было легче обнаружить.

Демографические данные, связанные с членами кластера передачи, также могут быть подвержены непреднамеренной или преднамеренной предвзятости, вносимой врачами или пациентами при представлении метаданных. Один из примеров этого явления можно увидеть во время сообщения о факторах риска, когда пациенты могут чувствовать себя некомфортно, раскрывая характер своей сексуальной практики или употребления наркотиков, и либо опускают, либо лгут об этой информации.

Интересно, что решения проблемы предвзятости в обеих областях можно найти одним и тем же путем: измерением врожденных неизменяемых данных. При обнаружении мошенничества это означает биометрические данные. Возможно, вы лучше всего знакомы с биометрическими данными в контексте процессов идентификации, таких как сканирование отпечатков пальцев, радужной оболочки глаза или лица, но определение может быть расширено гораздо дальше. Такая информация, как динамика нажатия клавиш (например, продолжительность нажатия клавиш, время между нажатиями клавиш, общее время слова) и динамика касания (например, продолжительность касания, направление касания, давление касания), может использоваться для построения известного профиля для данного пользователя, который можно сравнить с экземплярами. девиантного поведения, которое может быть мошенническим. Это может не только помочь выявить необычное мошенническое поведение в отдельных учетных записях, но и помочь понять, что отличает законных пользователей от мошенников в целом.

Из-за постоянной гонки вооружений между мошенниками и аналитиками, которые их ловят, недавний рост использования биометрических методов начал отражаться ростом использования технологии дипфейка для обхода общедоступных систем биометрической идентификации, которые контролируют доступ к учетной записи. Хотя я не смог найти каких-либо публичных сообщений о мошенниках, имитирующих такие характеристики, как нажатие клавиш или динамику касания, которые, возможно, менее очевидны для фиктивной легитимности, такое развитие событий кажется вполне возможным.

В настоящее время биометрия представляет собой очень привлекательный способ обнаружения мошенничества, потому что многие из них (пока) чрезвычайно трудно подделать. Точно так же данные о секвенировании ВИЧ надежно защищены от предвзятости со стороны человека (за исключением любых ошибок, которые могут возникнуть во время секвенирования в лаборатории). Из-за очень высокой скорости эволюции ВИЧ различия между последовательностями, наблюдаемыми у разных людей, являются результатом исключительно эпидемиологической динамики, связанной с передачей. Это означает, что данные последовательности защищены от любой предвзятости, которая может быть внесена как пациентами, так и медицинскими работниками, участвующими либо в процессе отчетности, либо в процессе определения приоритетов.

Некоторые передовые методы мониторинга передачи ВИЧ (например, тот, над разработкой которого я работал) используют это явление, используя признаки, полученные из последовательностей, а не метаданные исторических кластеров, для аппроксимации скорости передачи на уровне кластера. Этот тип метода можно использовать для достижения ранжирования кластеров передачи, которое блокирует больше будущих случаев, чем традиционные подходы, при этом сводя к минимуму как субъективность, так и зависимость от исторических данных.

Использование перекрытия

Итак, теперь, когда вы знакомы со значительным перекрытием между этими двумя областями, вам может быть интересно, в чем польза от этих знаний вообще. Важно понимать, как мало у людей, делающих успехи в каждой из этих областей, шансов взаимодействовать — в целом, ученые в области общественного здравоохранения и аналитики мошенничества работают в совершенно разных средах со своими собственными кругами распространения знаний. Однако сходство позволяет легко перенести достижения в одной области в другую.

Обе области пытаются добиться прогресса на постоянно меняющемся фоне, поэтому возможность расширить базу знаний, на которую можно опереться при разработке новых подходов, очень ценна. Как аналитик общественного здравоохранения, в настоящее время работающий над конвейером машинного обучения для мониторинга ВИЧ, я могу лично сказать об этом — использование литературы по обнаружению мошенничества было чрезвычайно полезным для меня в решении многих проблем, обсуждаемых в этой статье. Я думаю, весьма вероятно, что плодотворные новые подходы как для аналитиков мошенничества, так и для ученых находятся на грани совпадения, просто ожидая, когда их возьмут, отшлифуют и съедят.