Полученные результаты

В части 3 мы рассмотрим оценки метрик для конвейеров, которые получили наивысшие оценки за F1, Precision и Recall. Здесь есть моментальный снимок оценок всех конвейеров.

Оценка F1

Трубопроводы 15 и 16 имеют самый высокий балл F1. Конвейер 16 имеет дополнительный раунд оптимизации гиперпараметров. В этих конвейерах используется алгоритм Snap Random Forest. Давайте рассмотрим результаты Pipeline 16.

Кривая ROC

Кривая ROC отображает процент истинных положительных результатов (TPR) в сравнении с уровнем ложных положительных результатов (FPR) при различных порогах классификации. Кривая ROC помогает оценить производительность модели, показывая компромисс между чувствительностью (TPR) и специфичностью (истинный отрицательный показатель) для различных пороговых значений.

Маленькие кружки на рисунке представляют пороги и соответствующие TPR и FPR. Мы хотим максимизировать TPR при минимизации FPR. Однако в конечном итоге у нас будет компромисс между TPR и FPR. Допустим, мы хотим, чтобы наш TPR был равен 0,9. Тогда у нас будет FPR 0,15.

Матрица путаницы

Матрица путаницы суммирует количество правильных и неправильных прогнозов, сделанных моделью, по сравнению с фактическими результатами. Это нетехническое объяснение модели бинарной классификации. Здесь у нас очень хорошая Precision для положительных (государственных) и отрицательных (негосударственных) классов. Хотя точность для положительного класса очень высока, у нас низкий отзыв 60,7%.

Кривая точности-отзыва

Кривая Precision-Recall представляет собой графическое представление компромисса между Положительным прогностическим значением и отзывом классификатора. Порог принятия решения — это вероятность того, что экземпляр классифицируется как положительный, а ниже — как отрицательный. При увеличении RRecall почти резко снижается PPrecision.

Точность

Лучшими результатами Precision являются Pipeline 13 и Pipeline 14, которые имеют одинаковые результаты. Единственная разница для Pipeline 14 заключается в том, что применяется последний этап оптимизации гиперпараметров.

Кривая ROC

Кривая ROC ниже — искусный классификатор. Он показывает пороги изменения TPR и FPR.

Матрица путаницы

Матрица путаницы имеет те же значения, что и предыдущий конвейер. У этой модели тоже хорошая точность, но отзыв для меньшинства низкий.

Кривая точности-отзыва

Кривая точность-отзыв резко снижается по мере увеличения отзыва с 0,6 до 0,8.

Отзывать

Pipeline 9 имеет самый высокий показатель отзыва. Кривая ROC, матрица путаницы и кривая Precision-Recall представлены ниже.

Кривая ROC

У нас немного улучшилась кривая ROC.

Матрица путаницы

Отзыв для класса меньшинств является самым высоким по сравнению с предыдущими моделями. Тем не менее, количество ложных срабатываний намного выше.

Кривая точности-отзыва

Хотя IBM AutoAI предоставляет кривую ROC, кривую Precision-Recall, матрицу путаницы и другие соответствующие оценки, мы предоставляем только лучшие результаты для F1, Precision и Recall.

Матрица путаницы с дополнительными конвейерами

Некоторые из матрицы путаницы конвейеров и таблицы сравнения производительности моделей для тестовых данных предназначены для сравнения оценок и понимания того, чем модели отличаются друг от друга. Матрица путаницы может принести больше пользы несбалансированным данным, чем сбалансированным. Поскольку мы можем видеть TP, FP, TN и FN для каждого класса, в зависимости от потребностей организации или домена, мы можем выбрать модель на основе производительности модели в классе меньшинства без необходимости понимать F1, AUROC. , и так далее.

Канал 7

У этого есть лучший показатель точности для класса меньшинства. Если для миноритарного класса приоритет имеет высокий уровень Precision, лучше всего применить этот конвейер.

Канал 3

Хотя значение TP выше, в этой модели у нас также выше FP.

Канал 5

Эта модель улучшилась в отношении FP, но наша TP теперь ниже.

Мы уже рассмотрели, как оценивать F1, Precision, Recall и AUROC. Другая метрика, Средняя точность, также используется для оценки несбалансированных данных. Средняя точность — это средневзвешенное значение точности для каждого порога.

Сравнительная таблица производительности моделей для тестовых данных

Пять основных оригинальных функций в зависимости от их важности для конвейера 15

Ранжирование функций по важности функций меняется в зависимости от модели. Сводка по 10 основным функциям каждой модели представлена ​​в репозитории GitHub.

Заключение

Выбор модели зависит от бизнес-приоритетов и потребностей в классификации несбалансированных данных. Нынешняя ситуация говорит нам об увеличении числа спонсируемых государством кибератак, которые обходятся дорого. Поэтому киберстраховщики хотят избегать включения в свои полисы кибератак, спонсируемых государством. Им необходимо определить, спонсируется ли кибератака государством или нет. Если им не удастся распознать атаку, спонсируемую государством, они прикроют не ту жертву, учитывая политику. Кроме того, если они не заплатят клиенту-жертве атаки, спонсируемой государством, они могут позже иметь дело с судебными исками, судебными издержками и т. д. Здесь существует компромисс, чтобы решить, какой из них является более дорогостоящим, покрывая связанную с государством кибератаку. жертве или не покрывать негосударственную жертву кибератаки.

Модели, разработанные с помощью IBM AutoAI, показывают, что кибератаку можно в определенной степени идентифицировать как спонсируемую государством. Вы можете использовать Pipeline 3, включив в прогноз больше атак, спонсируемых государством. Или вы можете выбрать конвейер с наивысшей оценкой F1, уравновешивая производительность для обоих классов.

Какой трубопровод вы бы выбрали? Что должно быть в приоритете у страховщиков?

Часть 1: Комментарий: Атрибуция кибератак

Часть 2: Как оценивать классификаторы с несбалансированным набором данных