ПРОГНОЗИРОВАНИЕ МОДЕЛЕЙ КИБЕРПРЕСТУПНОСТИ И РОЛЬ МАТРИЦЫ ЗАПУТАНИЯ — пример из практики

Что такое киберпреступность?

Киберпреступность — это преступная деятельность, направленная против компьютера, компьютерной сети или сетевого устройства или использующая их.

Большинство, но не все киберпреступления совершаются киберпреступниками или хакерами, которые хотят заработать деньги. Киберпреступность совершается отдельными лицами или организациями.

Некоторые киберпреступники организованы, используют передовые методы и обладают высокими техническими навыками. Остальные — начинающие хакеры.

В редких случаях киберпреступность направлена ​​на повреждение компьютеров по причинам, отличным от получения прибыли. Они могут быть политическими или личными.

Виды киберпреступлений

Вот несколько конкретных примеров различных видов киберпреступлений:

  • Электронная почта и интернет-мошенничество.
  • Мошенничество с идентификацией (где личная информация украдена и использована).
  • Кража финансовых или карточных платежных данных.
  • Кража и продажа корпоративных данных.
  • Кибервымогательство (требование денег за предотвращение угрозы атаки).
  • Атаки программ-вымогателей (разновидность кибервымогательства).
  • Криптоджекинг (когда хакеры добывают криптовалюту, используя ресурсы, которыми они не владеют).
  • Кибершпионаж (когда хакеры получают доступ к данным правительства или компании).

Большая часть киберпреступлений относится к двум основным категориям:

1. Преступная деятельность, нацеленная на

2. Преступная деятельность с использованием компьютеров для совершения других преступлений.

Что такое матрица путаницы?

Матрица путаницы — это еще один показатель, который часто используется для измерения производительности алгоритма классификации. Как следует из названия, терминология, связанная с матрицей путаницы, может быть довольно запутанной, но сама матрица проста для понимания (в отличие от фильмов).

В этом посте давайте сосредоточимся на бинарных классификаторах, как в примере с фильтрацией спама, в котором каждое электронное письмо может быть либо спамом, либо не спамом. Матрица путаницы будет иметь следующий вид:

Прогнозируемые классы представлены в столбцах матрицы, тогда как фактические классы находятся в строках матрицы. Тогда у нас есть четыре случая:

  • Точность, точность, отзыв, точность F1-score
  • Оценка (Acc) — это метод, используемый для оценки производительности модели, сделанной путем сравнения прогнозов, сделанных после запуска алгоритма, с тестовыми данными. Значение между 0 и 1 создается в соответствии с отношением всего предсказанного значения для совпадения предсказания с реальными значениями. Для определения точности прогноза:
  • TP = Прогноз положительный (нормальный), а фактический положительный (нормальный).
  • FP = Прогноз положительный (нормальный), а фактический отрицательный (ненормальный).
  • FN = Прогноз отрицательный (ненормальный), а фактический положительный (нормальный).
  • TN = предсказание отрицательное (ненормальное), а фактическое отрицательное (ненормальное)

Другими показателями оценки предлагаемой модели являются точность, полнота и F1-оценка. Точность (P) — это отношение правильно классифицированных положительных экземпляров к общему количеству положительных экземпляров. Отзыв (R) показывает, насколько успешно предсказываются положительные экземпляры. F1-Score (F1) — это средневзвешенное значение Precision и Recall.

Второй способ заключается в рассмотрении значений этих слов. False Positive содержит одно отрицательное слово (False), так что это ошибка типа I. False Negative содержит два отрицательных слова (False + Negative), поэтому это ошибка II типа.

Матрицы путаницы имеют два типа ошибок: Тип I и Тип II.

Меня учили двум способам держать прямо Тип I и Тип II. Если вы знаете какие-либо другие, которые помогли вам за эти годы, оставьте их в комментариях — я люблю хорошие мнемоники!

Первый способ — переписать False Negative и False Positive. Ложноположительный результат – это ошибка I типа, поскольку ложноположительный = False Истина и имеет только один F. Ложно-отрицательный – это ошибка II типа, поскольку ложно-отрицательный = False Fтакже есть две буквы F, что делает его типом II. (Спасибо Райли Даллас за этот метод!)

Второй способ заключается в рассмотрении значений этих слов. False Positive содержит одно отрицательное слово (False), так что это ошибка типа I. False Negative содержит два отрицательных слова (False + Negative), поэтому это ошибка II типа.

Теперь посмотрите, как матрица путаницы предсказывает киберпреступления.