Матрица путаницы – это матрица размера N x N, используемая для оценки эффективности модели классификации, где N – количество целевых классов. Матрица сравнивает фактические целевые значения с прогнозируемыми с помощью модели машинного обучения. Строки представляют предсказанные значения целевой переменной.

В области машинного обучения и, в частности, в задаче статистической классификации матрица путаницы, также известная как матрица ошибок, представляет собой особый макет таблицы, который позволяет визуализировать производительность алгоритма, обычно матрица обучения с учителем (в обучении без учителя ее обычно называют матрицей сопоставления). Каждая строка матрицы представляет экземпляры в реальном классе, а каждый столбец представляет экземпляры в предсказанном классе или наоборот — оба варианта встречаются в литературе. Название связано с тем фактом, что оно позволяет легко увидеть, смешивает ли система два класса (т. е. обычно ошибочно маркирует один как другой).

Это особый вид таблицы непредвиденных обстоятельств с двумя измерениями («фактическое» и «прогнозируемое») и идентичными наборами «классов» в обоих измерениях (каждая комбинация измерения и класса является переменной в таблице непредвиденных обстоятельств).

Давайте подробно обсудим таблицу матрицы путаницы.

УСЛОВИЯ

Истинно положительный результат. Вы предсказали положительный результат, и это правда.

Истинно отрицательный: вы предсказали отрицательный результат, и это правда.

Ложноположительный результат (ошибка типа 1): вы предсказали положительный результат, но он оказался ложным.

Ложноотрицательный результат (ошибка типа 2): вы предсказали отрицательный результат, и он оказался ложным.

Что такое ошибка типа 1 и типа 2?

Ошибка типа 1

Ошибка типа I, также известная как «ложноположительный результат»: ошибка отклонения нулевой гипотезы, когда она на самом деле верна. Другими словами, это ошибка принятия альтернативной гипотезы (настоящей интересующей гипотезы), когда результаты можно объяснить случайностью. Проще говоря, это происходит, когда мы наблюдаем разницу, когда на самом деле ее нет (точнее, нет статистически значимой разницы). Таким образом, вероятность совершения ошибки первого рода в тесте с областью отбраковки R равна 0 P R H ( | верно).

Ошибка 2 типа

Ошибка типа II, также известная как «ложноотрицательный»: ошибка не отвергать нулевую гипотезу, когда альтернативная гипотеза является истинным состоянием природы. Другими словами, это ошибка, состоящая в том, что вы не принимаете альтернативную гипотезу, когда у вас нет достаточной силы. Попросту говоря, это происходит, когда мы не замечаем различия, хотя на самом деле оно есть. Таким образом, вероятность совершения ошибки II рода в тесте с областью отбраковки R равна 1 (| верно) − P R Ha. Мощность теста может быть ( | верно) P R Ha.

КИБЕРПРЕСТУПЛЕНИЯ

Киберпреступность, также называемая компьютерная преступность, использование компьютера в качестве инструмента для достижения незаконных целей, таких как совершение мошенничества, торговля детской порнографией и интеллектуальной собственностью, воровство, личные данные или нарушение конфиденциальности. Киберпреступность, особенно в Интернете, стала приобретать все большее значение, поскольку компьютер стал играть центральную роль в торговле, развлечениях и правительстве.

Киберпреступность в современном мире технологий стремительно растет. Преступники Всемирной паутины используют личную информацию интернет-пользователей в своих корыстных целях. Они погружаются в темную сеть, чтобы покупать и продавать нелегальные товары и услуги. Они даже получают доступ к секретной правительственной информации.

К 2021 году киберпреступность более чем втрое превысит количество незанятых вакансий в области кибербезопасности.

К 2021 году глобальный ущерб от киберпреступлений достигнет 6 трлн долларов.

В современном мире киберпреступления происходят с угрожающей скоростью. Поскольку количество преступников, использующих Интернет, увеличивается, используйте его как средство связи для совершения преступления. Структура, разработанная в нашей работе, необходима для создания модели, которая может поддерживать аналитику в отношении идентификации, обнаружения и классификации комплексных киберпреступлений (структурированных и неструктурированных). Основное внимание в нашей работе уделяется поиску атак, использующих уязвимости системы безопасности, и анализу этих атак с использованием методов машинного обучения.

Обнаружение и классификация кибератак с использованием параллельного метода опорных векторов

Был введен ряд методов обнаружения и классификации кибератак с разным уровнем успеха, которые используются в качестве контрмеры для сохранения целостности данных и доступности системы от атак. Мы предложили алгоритм параллельной машины опорных векторов (pSVM) для обнаружения и классификации наборов данных кибератак. По сути, обнаружение кибератак — это проблема классификации, в которой мы классифицируем нормальный образец от ненормального.

Точность классификации PSVM заметно улучшается (точность для нормального класса, а также класса DOS составляет почти 100%) и сравнима с частотой ложных срабатываний и временем обучения, тестирования.

Предлагаемый алгоритм параллельной машины опорных векторов оценивается с использованием наборов данных обнаружения вторжений KDD1999. Первый недостаток заключается в том, что SVM очень чувствителен к атакам. Во-вторых, SVM, предназначенный для задач с двумя классами, его необходимо расширить для задачи с несколькими классами, выбрав подходящую функцию ядра. Машина опорных векторов на основе дерева решений, которая сочетает в себе машины опорных векторов и дерево решений, может быть эффективным способом решения многоклассовых задач.

Усовершенствованный алгоритм машины опорных векторов (iSVM) для классификации набора данных о кибератаках, который обеспечивает 100% точность обнаружения для обычных классов и классов отказа в обслуживании (DOS) и сопоставим с частотой ложных срабатываний, временем обучения и тестирования.

Для каждого соединения TCP/IP из 41 функции, 34 характеристик (числовых) и 7 характеристик (символических) была извлечена 41 различная количественная (непрерывный тип данных) и качественная (дискретный тип данных) характеристика.

DR (скорость обнаружения) рассчитывается как отношение между количеством правильно обнаруженных атак и общим количеством атак, а частота ложных тревог (ложноположительных) вычисляется как отношение между количеством нормальных соединений, которые ошибочно классифицируются как атаки. и общее количество обычных соединений.

В KDD Cup 99 критерием, используемым для оценки заявок участников, является стоимость теста (CPT), рассчитанная с использованием матрицы путаницы и заданной матрицы стоимости. Матрица путаницы (CM) представляет собой квадратную матрицу, в которой каждый столбец соответствует предсказанному классу, а строки соответствуют фактическим классам.

Вывод

В этом исследовании представлена ​​новая система обнаружения и классификации кибератак для классификации кибератак. В этом мы улучшили производительность IDS, используя параллельную машину опорных векторов для обнаружения и классификации распределенных кибератак. Показано, что новый PSVM более эффективен для обнаружения и классификации различных типов кибератак по сравнению с SDF. Результаты экспериментов с набором данных эталонного теста KDD99 показывают, что предложенный алгоритм достиг высокой скорости обнаружения различных типов сетевых атак.

Спасибо, что читаете мой блог :)