Авторы: АДЕЕМИ ОЛУВАМОСОПЕ А., ТОНИ-АВУСАКУ ДЭВИД, АДЕЛЕЙ МОСОП МАЙКЛ, ОНИФАДЕ ОМОЛАБАКЕ ​​А.,

АБСТРАКТНЫЙ

Финансовое мошенничество представляет собой серьезную проблему, имеющую серьезные последствия для отдельных лиц, организаций и экономики. Методы машинного обучения доказали свою эффективность в обнаружении и предотвращении финансового мошенничества за счет анализа больших объемов данных, выявления закономерностей и аномалий, которые могут указывать на мошенническую деятельность. С акцентом на подходы к обучению с учителем в этой статье обсуждаются два из многочисленных методов машинного обучения, используемых для обнаружения финансового мошенничества.

[3] Существует несколько преимуществ использования методов машинного обучения для обнаружения финансового мошенничества. Одним из основных преимуществ является возможность быстро и точно анализировать большие объемы данных. Традиционные методы обнаружения мошенничества, такие как ручная проверка транзакций или системы, основанные на правилах, могут занимать много времени и могут упускать тонкие закономерности или аномалии, которые могут указывать на мошенническую деятельность. [9] Алгоритмы машинного обучения, с другой стороны, могут обрабатывать огромные объемы данных за относительно короткий период времени и выявлять закономерности и аномалии, которые могут быть упущены аналитиками-людьми.

В дополнение к традиционным методам машинного обучения существуют также новые подходы, разработанные специально для обнаружения мошенничества. [15] Одним из примеров является использование методов глубокого обучения, которые позволяют изучать сложные закономерности и взаимосвязи в данных путем анализа нескольких слоев информации. Другим примером является использование обучения с подкреплением, которое позволяет алгоритмам учиться методом проб и ошибок, постепенно улучшая свою производительность с течением времени.

ВВЕДЕНИЕ

Традиционные подходы к обнаружению мошенничества, такие как ручная проверка транзакций или системы, основанные на правилах, могут занимать много времени и могут упускать из виду небольшие тенденции или аномалии, указывающие на мошенническое поведение. Алгоритмы машинного обучения, с другой стороны, могут оценивать огромные объемы данных за очень короткий промежуток времени, выявляя закономерности и аномалии, которые не заметили бы аналитики-люди.

Финансовое мошенничество уже давно является основным источником беспокойства для частных лиц, корпораций и правительств во всем мире. Вероятность мошенничества значительно возросла с растущим признанием цифровых финансовых транзакций, и традиционные методы обнаружения изо всех сил пытались не отставать. В последние годы подходы машинного обучения продемонстрировали огромные перспективы в качестве инструмента для автоматизации и улучшения выявления финансового мошенничества [5]. В этом исследовании рассматривается применение методов машинного обучения для выявления финансового мошенничества и рассматриваются возможные преимущества и недостатки этих подходов.

Алгоритмы машинного обучения могут повысить свою производительность и стать более эффективными при выявлении мошеннических действий, поскольку они подвергаются воздействию все большего количества данных [6]. Это особенно верно в отношении финансового мошенничества, где стратегии и подходы постоянно развиваются. Алгоритмы машинного обучения могут опережать эти изменения и выявлять мошенническое поведение, постоянно обучаясь и корректируясь. Это исследование сосредоточено в основном на двух основных алгоритмах обучения с учителем, а именно: случайный лес и логистическая регрессия.

[8] Логистическая регрессия — это статистический подход к задачам бинарной классификации, который широко используется в области машинного обучения. [12] Это линейная модель, которая предсказывает вероятность возникновения события на основе набора входных признаков. Чтобы максимизировать вероятность того, что прогнозы модели верны, корректируются коэффициенты или веса модели логистической регрессии.

Модель случайного леса состоит из нескольких деревьев решений, каждое из которых обучается на случайно выбранной части данных. Окончательный прогноз случайного леса — это среднее или среднее значение прогнозов, данных отдельными деревьями решений.

ЦЕЛЬ И ЗАДАЧИ

Цель: разработать платформу и коды для обнаружения мошеннических транзакций с использованием контролируемых методов машинного обучения.

Цели:

  • Провести исследование литературы по выявлению финансового мошенничества и осмыслить различные аспекты проблемы.
  • Использовать контролируемые алгоритмы машинного обучения для обнаружения мошенничества в финансовых транзакциях.
  • Сравнить различные подходы к классификации, чтобы определить, какой из них лучше всего подходит для данного приложения.

ОБЗОР РОДСТВЕННЫХ РАБОТ

[3] Машинное обучение для обнаружения финансового мошенничества. В этом исследовании они использовали общедоступные данные о смоделированных финансовых транзакциях, чтобы применить различные контролируемые алгоритмы машинного обучения к проблеме обнаружения мошенничества. Цель состояла в том, чтобы показать, как можно использовать контролируемые методы машинного обучения для точной классификации данных с существенным дисбалансом классов. Они провели исследовательский анализ, чтобы отличить мошеннические и немошеннические транзакции в синтетическом наборе данных, и обнаружили, что случайный лес, популярный метод древовидного алгоритма, превосходит логистическую регрессию.

Для этого анализа использовались ноутбуки Python и Jupyter. Модели машинного обучения запускались с использованием встроенных и сторонних библиотек. При необходимости разрабатывались функции для облегчения определенного анализа или визуализации.

Кроме того, в документе предлагаются четыре типа финансового мошенничества: мошенничество с финансовой отчетностью, мошенничество с транзакциями, мошенничество со страховкой и мошенничество с кредитами [13]. Целью данного исследования является изучение мошенничества с транзакциями, связанными с мобильными платежами.

[1] под названием «Интеллектуальное обнаружение мошенничества в финансовой отчетности с использованием машинного обучения и интеллектуального анализа данных: систематический обзор литературы». Для этой работы они провели подробный анализ и обобщение существующих исследований по интеллектуальному обнаружению мошенничества в финансовых отчетах компаний. В дополнение к многочисленным наборам данных, исследованным для обнаружения финансового мошенничества, в этом исследовании изучались методологии интеллектуального анализа данных и машинного обучения. Они собирали, синтезировали и отображали данные, используя метод Китченхема как четко определенную методологию.

Другие важные работы включают в себя: [14], которая обнаружила мошенничество со страхованием транспортных средств с использованием нейронных сетей, байесовского метода Nave и деревьев решений. Рависанкар и др. (2011) использовали нейронные сети, SVM, логистическую регрессию и генетическое программирование для обнаружения заявлений о финансовом мошенничестве на китайских предприятиях.

ОБСУЖДЕНИЕ

Этот проект был выполнен в соответствии с четырехэтапной методологией.

  1. Идентификация и понимание набора данных
  2. Очистка данных и проверка работоспособности
  3. Техники моделирования
  4. отчет по проекту

ИСПОЛЬЗУЕМЫЕ ИНСТРУМЕНТЫ

Мы построили и разработали наши модели на Python и задокументировали результаты нашего исследования в блокноте Jupyter. Различные анализы проводились с использованием стандартных пакетов Python.

Эти библиотеки включают в себя:

  • SKLEARN: scikit-learn — это бесплатная библиотека машинного обучения для языка программирования Python. Он включает в себя различные алгоритмы классификации, регрессии и кластеризации, включая машины опорных векторов,
  • SEABORN: Seaborn — это библиотека визуализации данных Python, основанная на matplotlib. Он предоставляет высокоуровневый интерфейс для рисования привлекательных и информативных статистических диаграмм.
  • NUMPY: NumPy — это библиотека для языка программирования Python, добавляющая поддержку больших многомерных массивов и матриц, а также большой набор высокоуровневых математических функций для работы с этими массивами.
  • MATPLOTLIB: Matplotlib — это библиотека построения графиков для языка программирования Python и его расширения для числовой математики NumPy.
  • PANDAS: эта библиотека Python используется для обработки и анализа данных. В частности, он предлагает структуры данных и операции для работы с числовыми таблицами и временными рядами.

ИСПОЛЬЗУЕТСЯ НАБОР ДАННЫХ

Поскольку финансовые данные являются конфиденциальными, количество общедоступных баз данных для анализа ограничено. Для этого проекта мы использовали искусственный набор данных, полученный от Kaggle.

Наши цели заключаются в следующем.

  1. Изучить литературу по выявлению финансового мошенничества и понять различные аспекты проблемы. Это включает в себя понимание типов мошенничества и типов финансовых транзакций, доступных нам в наборе данных.
  2. Чтобы обнаружить мошенничество в синтетическом наборе финансовых данных от Kaggle, используя алгоритм логистической регрессии и случайного леса. Затем мы приступаем к категоризации данных и моделированию.
  3. Чтобы оценить пригодность различных подходов к классификации для этого приложения. Из результатов нашего эксперимента лучше всего подходят эти два метода: логистическая регрессия и случайный лес. Мы бы сделали вывод, сравнив точность обоих методов.

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

[4] Эта статистическая модель (также известная как логит-модель) широко используется в классификации и прогнозной аналитике. Вероятность возникновения события рассчитывается с помощью логистической регрессии. Модель логистической регрессии тестируется, обучается и получает среднюю оценку отзыва в этой части, которая будет использоваться в качестве стандарта для последующих экспериментов.

Производительность модели на обучающем наборе данных показана отзывом 55%, который мы получили в результате ее обучения. Это показывает, что стандартная модель логистической регрессии может учитывать чуть более половины реальных случаев мошенничества.

Счет F1: 0,5534045393858478

Точность этой модели: 0,998068157371539

Поскольку набор данных чрезвычайно несбалансирован, для преодоления этого можно найти обходной путь. Ниже перечислены все способы

  1. Повышение выборки класса меньшинства; случайным образом дублировать данные из класса меньшинства.
  2. Класс большинства с пониженной выборкой: случайное удаление данных из класса большинства
  3. Следовательно, запуск алгоритма на данных с дисбалансом высокого класса не даст выдающихся результатов, о чем свидетельствуют высокая точность и низкая полнота.

СЛУЧАЙНЫЙ ЛЕС

Алгоритм случайного леса — это популярный алгоритм контролируемого машинного обучения на основе дерева, используемый для классификации и регрессии. Чтобы использовать этот метод, мы повторяем предыдущие шаги и генерируем среднюю оценку отзыва. Затем производительность каждой модели можно оценить, сравнив результаты с моделью логистической регрессии.

Вывод ниже показывает производительность модели в наборе обучающих данных.

0,8508891928864569 = 85% очков f1

Точность модели 0,9992131134286164 = 99,9%.

Алгоритм Random Forest дает почти идеальные результаты. По сравнению с логистической регрессией память случайного леса показывает гораздо лучшие результаты. Кроме того, производительность модели постоянна для наборов данных тестирования и обучения.

ОГРАНИЧЕНИЯ

Существуют различные ограничения, которые следует учитывать при использовании машинного обучения для выявления финансового мошенничества. [19] Одним из существенных ограничений является требование большого объема высококачественных данных для обучения алгоритмов. Производительность алгоритмов машинного обучения может ухудшиться при недостаточном разнообразии или низком качестве данных. Кроме того, если обучающие данные не являются репрезентативными для оцениваемой совокупности, алгоритмы машинного обучения могут быть предвзятыми. Чтобы избежать необъективных результатов, необходимо позаботиться о том, чтобы данные, используемые для обучения алгоритмов, были разнообразными и репрезентативными.

РЕКОМЕНДАЦИИ

  • Использовать широкий спектр алгоритмов машинного обучения: поскольку разные алгоритмы могут лучше подходить для разных форм финансового мошенничества, крайне важно использовать разнообразный набор алгоритмов для повышения скорости обнаружения.
  • Включите опыт предметной области: в сочетании с опытом предметной области и специфическими характеристиками машинное обучение может быть более успешным.
  • Используйте большие и разнообразные наборы обучающих данных: поскольку алгоритмам машинного обучения требуется огромное количество данных для обучения, крайне важно использовать разнообразные и репрезентативные наборы данных для повышения производительности модели.
  • Модели необходимо отслеживать и обновлять на регулярной основе, поскольку методы финансового мошенничества со временем меняются.
  • Оцените этические последствия: поскольку алгоритмы машинного обучения могут иметь неожиданные отклонения, очень важно учитывать этические последствия их использования для выявления финансового мошенничества.

ЗАКЛЮЧЕНИЕ

Мы сравнили логистическую регрессию и случайный лес как методы машинного обучения. Метод случайного леса превосходит логистическую регрессию, указывая на то, что древовидные алгоритмы эффективны для транзакционных данных с четко определенными классами.

Это также подчеркивает важность проведения тщательного исследовательского исследования для полного понимания данных до построения моделей машинного обучения.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

[1] АШТИАНИ, М. Н., и Б. РААХЕМИ (н. д.). Систематический обзор литературы по интеллектуальному обнаружению мошенничества в финансовой отчетности с использованием машинного обучения и интеллектуального анализа данных. ДОСТУП, IEEE.

[2] А. Барышева и А. Марков (н.д.). Обзор доступных стратегий обнаружения финансового мошенничества. Эконофизика. https://econophysica.ru/researches/financial-fraud-detection-an-overview-of-existing-techniques/ (по состоянию на 12 января 2023 г.).

Бинарикс (три) (2022, 11 июля). Машинное обучение для обнаружения и предотвращения финансового мошенничества. Бинарикс. https://binariks.com/blog/financial-fraud-detection-machine-learning/ (по состоянию на 12 января 2023 г.).

[4] ИБМ. (н.д). (н.д.). Что такое логистическая регрессия? ИБМ. https://www.ibm.com/topics/logistic-regression (по состоянию на 11 января 2023 г.).

[5] Интелиас. (2022, 20 января). (2022, 20 января). Как использовать машинное обучение для обнаружения и предотвращения мошенничества. Интеллиас. https://intellias.com/how-to-use-machine-learning-in-fraud-detection/ (по состоянию на 12 января 2023 г.).

[6] Дж. Перолс (2011, май). Обнаружение мошенничества с финансовой отчетностью с использованием статистических алгоритмов и алгоритмов машинного обучения. 30, 11–50 (Американская ассоциация бухгалтеров).

[7] РААХЕМИ, Б., Школа менеджмента Телфера, Оттавский университет, Оттава, и АШТИАНИ, М. (2021, 13 июля). Интеллектуальное обнаружение мошенничества в финансовой отчетности с использованием машинного обучения и интеллектуального анализа данных: систематический обзор литературы. https://www.researchgate.net/publication/363364663_Intelligent_Fraud_Detection_in_Financial_Statements_Using_Machine_Learning_and_Data_Mining_A_Systematic_Literature_Review

[8] Случайный лес. (н.д.). Википедия. Получено 11 января 2023 г. с https://en.wikipedia.org/wiki/Random_forest.

[9] Tanant, F. (nd). Как работает обнаружение мошенничества в машинном обучении и искусственном интеллекте. СОН. Получено 12 января 2023 г. с https://seon.io/resources/fraud-detection-with-machine-learning/

[10] Понимание случайного леса. Как работает алгоритм и почему это так… | Тони Ю. (2019, 12 июня). На пути к науке о данных. Получено 11 января 2023 г. с https://towardsdatascience.com/understanding-random-forest-58381e0602d2.

[11] Уэст1, Дж., Бхаттачарья, М., и Ислам, Р. (без даты). Интеллектуальные методы обнаружения финансового мошенничества: расследование.

[12] Что такое случайный лес? (н.д.). ИБМ. Получено 11 января 2023 г. с https://www.ibm.com/topics/random-forest.

[13] Янс и др., Приложение анализа бизнес-процессов для предотвращения мошенничества при внутренних транзакциях, Экспертные системы с приложениями, 38: 13351–13359, 2011.

[14] Отчет меньшинства по обнаружению мошенничества: классификация искаженных данных, Phua et al. Информационный бюллетень исследований ACM SIGKDD, том. 6, стр. 50–59, 2004.

[15] Р. Пьер (nd). Использование машинного обучения для обнаружения финансового мошенничества: победа в войне против несбалансированных данных. MLOps Как. Получено с https://mlopshowto.com/detecting-financial-fraud-using-machine-learning-three-ways-of-winning-the-war-against-imbalanced-a03f8815cce9 12 января 2023 г.

[16] Туториалпойнт. (н.д). (н.д.). Алгоритм случайного леса для машинного обучения. Яватпойнт. https://www.javatpoint.com/machine-learning-random-forest-algorithm/retrieved 12 января 2023 г.

[17] А. Блументаль (nd).

Обнаружение мошенничества с финансовой отчетностью. Инвестопедия. https://www.investopedia.com/articles/financial-theory/11/detecting-financial-fraud.asp (по состоянию на 12 января 2023 г.).

[18] Обнаружение финансовых мошеннических требований с использованием глубокой и плотной искусственной нейронной сети, G. S. Temponeras, S.-A.-N. Александропулос, С.Б. Коциантис и М.Н. Врахатис, в Proc. 10-й междунар. конф. инф., интел.

[19] Дж. Уэст и М. Бхаттачарья, «Интеллектуальное обнаружение финансового мошенничества: полное исследование», Comput. Безопасность., Том. 57, март 2016 г., стр. 47–66.

[20] С. О. Моепья, Ф. В. Нелвамондо и Б. Твала, «Расширенное обнаружение случаев мошенничества с финансовой отчетностью, связанных с классом меньшинства», в Proc. Азиатская конф. Интел. Инф. База данных сист. Чам, Швейцария: Springer, 2017, стр. 33–43.