Киберпреступность

Киберпреступность — это любая преступная деятельность, связанная с компьютером, сетевым устройством или сетью. В то время как большинство киберпреступлений совершается с целью получения прибыли киберпреступниками, некоторые киберпреступления совершаются против компьютеров или устройств непосредственно с целью их повреждения или вывода из строя, в то время как другие используют компьютеры или сети для распространения вредоносных программ, незаконной информации, изображений или других материалов. Некоторые киберпреступники делают и то, и другое — то есть нацелены на компьютеры, чтобы заразить их компьютерным вирусом, который затем распространяется на другие машины, а иногда и на целые сети.

Основным следствием киберпреступлений является финансовый; киберпреступность может включать множество различных видов преступной деятельности, направленной на получение прибыли, в том числе атаки программ-вымогателей, мошенничество с электронной почтой и Интернетом, мошенничество с идентификацией, а также попытки кражи информации о финансовом счете, кредитной карте или другой платежной карте. Киберпреступники также могут нацеливаться на личную информацию человека, а также корпоративные данные для кражи и перепродажи. Поскольку многие работники переходят на удаленную работу из-за пандемии, ожидается, что в 2021 году число киберпреступлений возрастет, что делает особенно важной защиту резервных копий данных.

Матрица путаницы

Матрицы путаницы представляют подсчеты от прогнозируемых и фактических значений. Вывод «TN» означает True Negative, который показывает количество точно классифицированных отрицательных примеров. Точно так же «TP» означает True Positive, что указывает на количество точно классифицированных положительных примеров. Термин «FP» показывает значение False Positive, т. е. количество фактических отрицательных примеров, классифицированных как положительные; и «FN» означает ложноотрицательное значение, которое представляет собой количество фактических положительных примеров, классифицированных как отрицательные. Одной из наиболее часто используемых метрик при выполнении классификации является точность. Точность модели (через матрицу путаницы) рассчитывается по приведенной ниже формуле.

Точность может ввести в заблуждение, если используется с несбалансированными наборами данных, и поэтому существуют другие показатели, основанные на матрице путаницы, которые могут быть полезны для оценки производительности.

Возможны два прогнозируемых класса: «положительно/да» и «отрицательно/нет».

Давайте теперь определим самые основные термины

  • истинные положительные результаты (TP): это случаи, в которых мы предсказывали положительный результат, и это правда.
  • Истинно отрицательные результаты (TN): мы прогнозировали «нет», и это правда.
  • ложные срабатывания (FP): мы прогнозировали положительный результат, но это неверно. (Также известна как «ошибка типа I».)
  • ложноотрицательные результаты (FN): мы прогнозировали отрицательный результат, но это неверно. (Также известна как «ошибка типа II».)

Виды киберпреступлений

  • Электронная почта и интернет-мошенничество.
  • Мошенничество с идентификацией (где личная информация украдена и использована).
  • Кража финансовых или карточных платежных данных.
  • Кража и продажа корпоративных данных.
  • Кибервымогательство (требование денег за предотвращение угрозы атаки).
  • Атаки программ-вымогателей (разновидность кибервымогательства).
  • Криптоджекинг (когда хакеры добывают криптовалюту, используя ресурсы, которыми они не владеют).
  • Кибершпионаж (когда хакеры получают доступ к данным правительства или компании).

Давайте рассмотрим дела о киберпреступлениях, используя матрицу путаницы.

Давайте разберемся с помощью кражи финансовых данных:

Цифровые платежи различных форм стремительно растут во всем мире. Платежные компании переживают стремительный рост объема транзакций. Например, в 2018 году PayPal обработал около 578 миллиардов долларов США. Наряду с этой трансформацией в этих платежных системах также наблюдается быстрый рост финансового мошенничества. Предотвращение финансового мошенничества в Интернете является жизненно важной частью работы групп по кибербезопасности и борьбе с киберпреступностью. Большинство банков и финансовых учреждений имеют специальные группы из десятков аналитиков, создающих автоматизированные системы для анализа транзакций, совершаемых через их продукты, и выявления потенциально мошеннических. Поэтому важно изучить подход к решению проблемы обнаружения мошеннических записей/транзакций в больших объемах данных, чтобы лучше подготовиться к раскрытию дел о киберпреступлениях.

Цель

Эта модель предназначена для обнаружения мошеннических финансовых транзакций. Результат проекта поможет оптимизировать анализ и выявление мошеннических транзакций.

Этапы методологии

  1. Понимание набора данных:
    -›
    отчет о сводке набора данных и каждой содержащейся в нем переменной вместе с необходимыми визуализациями.
  2. Исследовательский анализ данных:
    -›
    Отчет о проведенном анализе и критических выводах с полным описанием рассмотренных срезов данных 
    -›Гипотеза о разделении мошеннических и немошеннических транзакций
    -›Визуализации и диаграммы, показывающие разницу между мошенническими и немошенническими транзакциями
    -›Python-код выполненного анализа
  3. Моделирование
     –›
    Отчет о результатах различных опробованных методов, проведенных итераций, преобразований данных и подробного подхода к моделированию
     –> Код Python, использованный для создания машины модели обучения

Источники данных

Из-за частного характера финансовых данных отсутствуют общедоступные наборы данных, которые можно было бы использовать для анализа. В этом проекте используется синтетический набор данных, общедоступный на Kaggle, сгенерированный с помощью симулятора под названием PaySim. Набор данных был сгенерирован с использованием агрегированных показателей из частного набора данных многонациональной компании, предоставляющей мобильные финансовые услуги, а затем были внедрены вредоносные записи.

Давайте непосредственно перейдем к этапу моделирования

Шаги перед созданием модели

  • Создание набора данных
  • Стандартизация данных
  • Создание обучающих и тестовых наборов данных

Модель классификации для обнаружения мошенничества

Для измерения производительности моделей полезной метрикой является полнота. Наборы данных о дисбалансе высокого класса обычно приводят к плохой полноте, хотя точность может быть высокой. Точность также будет учитываться, поскольку снижение точности означает, что компания, пытающаяся обнаружить мошенничество, понесет больше затрат на проверку транзакций. Однако в задачах обнаружения мошенничества точное определение мошеннических транзакций является более важным, чем неправильная классификация законных транзакций как мошеннических.

Модель случайного леса

В этой модели мы повторяем одни и те же шаги, используя другой алгоритм классификации, такой как Random Forest, и вычисляем среднюю оценку отзыва.

После проверки вывода мы видим, что модель случайного леса, похоже, дает отличные результаты в наборе обучающих данных. Если мы построим матрицы путаницы для наборов данных для обучения и тестирования и проверим точность и полноту в каждом случае.

Давайте теперь попробуем разобраться в матрице путаницы:

  • истинные положительные результаты (TP): это случаи, в которых было предсказано мошенничество, но на самом деле это тоже мошенничество.
  • Истинно отрицательные результаты (TN): Предсказывалось, что это не мошенничество, и на самом деле это тоже не мошенничество.
  • ложные срабатывания (FP): прогнозировалось мошенничество, но на самом деле это не мошенничество. (Также известна как «ошибка типа I».)
  • ложноотрицательные результаты (FN): предсказано, что это не мошенничество, но на самом деле это мошенничество. (Также известна как «ошибка типа II».)

В этом случае мы не можем позволить себе ошибку первого рода и минимальную ошибку второго рода. Но в разных случаях она может быть разной.

Итак, можно сделать вывод, что алгоритм Random Forest дал почти идеальные результаты.

Спасибо за чтение…