Обнаружение спама с помощью матрицы ошибок.

В этой статье мы все говорим о киберпреступности и ее различных типах, и, наконец, мы увидим, как матрица путаницы помогает обнаруживать спам-сообщения, которые являются одним из видов киберпреступлений.

Что такое киберпреступность?

В современном мире технологий киберпреступность стремительно растет. Преступники во всемирной паутине используют личную информацию пользователей Интернета в своих целях. Они глубоко погружаются в темную сеть, чтобы покупать и продавать нелегальные продукты и услуги. Они даже получают доступ к секретной правительственной информации.

Киберпреступность определяется как преступление, при котором компьютер является объектом преступления или используется в качестве инструмента для совершения преступления. Киберпреступник может использовать устройство для доступа к личной информации пользователя, конфиденциальной деловой информации, правительственной информации или отключить устройство. Продажа или получение вышеуказанной информации в Интернете также является киберпреступлением.

Некоторые виды киберпреступлений

  • Электронная почта и Интернет-мошенничество.
  • Подделка личных данных.
  • Кража финансовых или карточных платежных данных.
  • Кража и продажа корпоративных данных.
  • Cyberextortion (требование денег для предотвращения угрозы атаки).
  • Атаки программ-вымогателей (разновидность кибер-вымогательства).

Теперь мы рассмотрим различные этапы классификации электронного письма на две категории: полезное или спам. Эта точность классификации будет измеряться с помощью матрицы неточностей.

Классификация электронной почты (биномиальная):

Итак, наша проблема состоит в том, чтобы разделить входящие письма на две категории: полезные и спам. Для этого мы используем Набор данных спамбазы. В этом наборе данных электронные письма имеют 57 различных независимых функций, и, используя эти функции, мы должны классифицировать электронные письма по двум категориям результатов: спам и нормальный.

Итак, сначала мы выполним всю предварительную обработку набора данных, а затем мы построим модель классификации с предварительно обработанными данными. Последним шагом в построении модели классификации является оценка модели, которая основана на сравнении фактических и прогнозируемых значений целевого столбца в набор тестов. Весь процесс оценки модели состоит из подсчета совпадений: сколько строк данных было правильно классифицировано и сколько строк данных было неправильно классифицировано моделью. Эти подсчеты сведены в «матрицу ошибок».

Здесь, в задаче классификации электронной почты, мы должны найти ответы на следующие вопросы:

  • Сколько фактических сообщений со спамом было признано спамом?
  • Сколько обычно?
  • Считались ли обычные электронные письма спамом?
  • Сколько обычных писем было предсказано правильно?

На эти вопросы будет дан ответ с помощью чисел, отображаемых в матрице неточностей. Статистика классов вычисляется поверх матрицы неточностей. Но прежде чем увидеть точность вывода через матрицу неточностей, давайте сначала разберемся с матрицей неточностей.

Матрица неточностей:

Матрица неточностей была первоначально введена для оценки результатов биномиальной классификации. Таким образом, первое, что нужно сделать, - это взять один из двух классов в качестве класса интереса, то есть положительный класс. В целевом столбце нам нужно выбрать (произвольно) одно значение в качестве положительного класса. Другое значение автоматически считается отрицательным классом. Это назначение является произвольным, просто имейте в виду, что некоторые статистические данные классов будут показывать разные значения в зависимости от выбранного положительного класса.

Итак, в нашей задаче мы выбрали спам-сообщения как положительный класс, а нормальные электронные письма как отрицательный.

Матрица неточностей дает подсчет четырех разных чисел, принадлежащих каждому классу:

Истинный положительный результат (TP): строки данных (электронные письма), относящиеся к положительному классу (спам) и правильно классифицированные как таковые. Количество истинных положительных результатов помещается в верхнюю левую ячейку матрица путаницы.

Ложноотрицательные (FN): строки данных (электронные письма), относящиеся к положительному классу (спам) и неправильно классифицированные как отрицательные (обычные электронные письма). Количество ложноотрицательных результатов помещается в верхнюю часть правая ячейка матрицы неточностей. Она также известна как ошибка типа 2.

Ложные срабатывания (FP): строки данных (электронные письма), относящиеся к отрицательному классу (нормальный) и неправильно классифицированные как положительные (спам-письма). Количество ложных срабатываний помещается в нижнюю левая ячейка матрицы неточностей. Она также известна как ошибка типа 1.

Истинно-отрицательный (TN): строки данных (электронные письма), принадлежащие к отрицательному классу (нормальный) и правильно классифицированные как таковые. Количество истинно отрицательных результатов помещается в нижнюю правую ячейку матрица путаницы.

Следовательно, правильные прогнозы находятся на диагонали с серым фоном, неправильные прогнозы находятся на диагонали с оранжевым фоном:

Меры для расчета производительности модели:

С четырьмя различными счетчиками в матрице неточностей мы можем рассчитать несколько показателей статистики классов для количественной оценки производительности модели. Статистика классов суммирует производительность модели отдельно для положительных и отрицательных классов. Чтобы узнать об этом показателе статистики класса, вы можете щелкнуть здесь.

Модель многомерной классификации электронной почты:

Мы также можем использовать матрицу неточностей для модели полиномиальной классификации. Предположим, нам нужно разделить электронные письма на три категории, такие как «нормальные», «рекламные» и «спам». Таким образом, здесь также, как и в классификации биномилы, значения целевого класса присваиваются положительному и отрицательному классам. Здесь мы определяем спам как положительный класс, а обычные и рекламные сообщения - как отрицательный.

Теперь матрица неточностей будет выглядеть примерно так:

Но в отличие от биномиальной классификации, здесь мы должны переопределить TP, FN, FP и TN в матрице путаницы как :

Истинный положительный результат (TP): ячейка, определенная строкой и столбцом для положительного класса, содержит истинные положительные результаты, т. е. где фактический и прогнозируемый класс является спамом.

Ложноотрицательный (FN). Ячейки, определенные строкой для положительного класса и столбцами для отрицательного класса, содержат Ложноотрицательные, где фактическим классом является спам, и прогнозируемый класс нормальный или рекламный.

Ложно-положительные (FP): ячейки, определенные строками для отрицательного класса и столбцом для положительного класса, содержат ложные положительные результаты, где фактический класс является нормальным или рекламным, а предполагаемый класс - спам.

Истинно отрицательный (TN): Ячейки за пределами строки и столбца для положительного класса содержат Истинно отрицательные, где фактический класс - это объявление или нормальный, а прогнозируемый класс - объявление или нормальный. Неправильный прогноз внутри отрицательного класса по-прежнему считается истинно отрицательным.

После этого эти четыре статистики будут использоваться для расчета точности работы модели с помощью статистической меры, описанной выше.

Заключение :

  • В этой статье мы узнали, что такое киберпреступность и ее различные виды.
  • Мы взяли одну проблему киберпреступности, связанную со спамом, чтобы построить модель классификации входящих писем для обнаружения спам-писем с использованием матрицы неточностей.
  • Матрица неточностей показывает эффективность модели классификации: сколько положительных и отрицательных событий предсказано правильно или неправильно. Эти подсчеты являются основой для расчета более общих показателей статистики класса. Здесь мы указали наиболее часто используемые: чувствительность и специфичность, отзывчивость и точность, а также F-меру.
  • Матрица неточностей и статистика классов были определены для задач биномиальной классификации. Однако мы показали, как их можно легко расширить для решения проблем полиномиальной классификации.

Большое спасибо за прочтение статьи !!!