Как точно и тщательно оценить классификационную модель

Классификация - это контролируемая обучающая задача, в которой мы пытаемся предсказать класс или метку точки данных на основе некоторых значений характеристик. В зависимости от количества классов, которые включает целевая переменная, это может быть двоичная или мультиклассовая классификация.

Оценка модели машинного обучения так же важна, как и ее построение. В этом посте мы рассмотрим 10 показателей для оценки эффективности модели классификации.

Оптимальный выбор метрики обычно зависит от характеристики данных и поставленной задачи. Я также объясню, когда конкретный показатель может быть лучше, чем другие.

В этой статье мы рассмотрим следующие показатели:

  1. Точность классификации
  2. Матрица путаницы
  3. Точность
  4. Отзывать
  5. Оценка F1
  6. Потеря журнала
  7. Чувствительность
  8. Специфичность
  9. Кривая ROC
  10. AUC

1. Точность классификации

Это просто отношение количества правильных предсказаний к количеству всех предсказаний.

Если модель правильно предсказывает 90 наблюдений (то есть точек данных) из 100, точность классификации составляет 90%.

В некоторых случаях точность может вводить в заблуждение. Предположим, мы создаем модель для выполнения двоичной классификации набора данных с несбалансированным распределением классов. 93% точек данных относятся к классу A и 7% - к классу B.

Модель может достичь точности 93%, просто прогнозируя каждое наблюдение как класс A. Что, если критически важно правильно определить класс B, и мы не можем позволить себе ошибочную классификацию любых образцов класса B (т.е. прогноз рака)? В таких случаях мы не можем использовать точность для оценки модели, если нам не удастся каким-либо образом устранить распределение классов дисбаланса.

2. Матрица неточностей

Матрица неточностей не возвращает числовое значение в качестве оценки. В этом смысле сложно назвать это метрикой. Однако матрица неточностей дает ценную информацию о прогнозах.

Матрица путаницы выходит за рамки точности классификации, показывая правильные и неправильные (то есть истинные или ложные) прогнозы для каждого класса. В случае задачи двоичной классификации матрица неточностей представляет собой матрицу 2x2. Если есть три разных класса, это матрица 3x3 и так далее.

Давайте также объясним термины в матрице неточностей.

  • Истинно положительный (TP): Прогнозирование положительного класса как положительного (хорошо)
  • Ложноположительный (FP): прогнозирование отрицательного класса как положительного (не в порядке)
  • Ложноотрицательный (FN): Прогнозирование положительного класса как отрицательного (не нормально)
  • Истинно отрицательный (TN): прогнозирование отрицательного класса как отрицательного (нормально)

Желаемый результат состоит в том, что прогноз и фактический класс совпадают.

3. Точность

Точность в основном используется в задачах двоичной классификации. Он ориентирован на положительные прогнозы.

Точность - это отношение правильных положительных прогнозов ко всем положительным прогнозам. В некотором смысле он оценивает модель только на основе положительных прогнозов.

Точность определяет, насколько хороша наша модель при положительном прогнозе.

Для модели обнаружения спама в электронной почте мы стараемся максимизировать точность, потому что мы хотим быть правыми, когда электронная почта определяется как спам. Мы не хотим отмечать обычное электронное письмо как спам (т. Е. Ложное срабатывание). С другой стороны, мы можем позволить себе не ловить несколько спам-писем.

4. Напомним

Напоминание также используется в задачах двоичной классификации. Он ориентирован на положительный класс.

Напоминание - это отношение правильных положительных прогнозов ко всем наблюдениям в положительном классе. Таким образом, он оценивает модель на основе ее способности предсказывать положительный класс.

Напоминание измеряет, насколько хорошо наша модель правильно предсказывает положительные классы.

Для задачи обнаружения опухолей нам нужно максимизировать отзыв, потому что мы хотим выявлять как можно больше положительных классов. Мы не можем позволить себе ошибочно классифицировать какой-либо положительный класс (например, случай с опухолью).

Важно понимать разницу между точностью и отзывом. Точность основана на положительных прогнозах, тогда как отзыв основан на положительном классе.

5. Оценка F1

Оценка F1 - это средневзвешенная точность и отзывчивость.

Оценка F1 - более полезная мера, чем точность для задач с неравномерным распределением классов, поскольку она учитывает как ложноположительные, так и ложноотрицательные результаты.

Лучшее значение для оценки f1 - 1, а худшее - 0.

6. Потеря журнала

Потеря журнала - один из наиболее часто используемых показателей классификации. Это также известно как потеря кросс-энтропии.

Алгоритмы классификации обычно выводят значения вероятности для наблюдения, принадлежащего определенному классу. Метка класса назначается как метка с наибольшей вероятностью.

В отличие от предыдущих показателей, которые мы обсуждали, потеря журнала учитывает значения вероятности, а не присвоенные метки. Таким образом, он обычно обеспечивает более надежную оценку.

При вычислении логарифма потерь мы берем отрицательное значение из натурального логарифма прогнозируемых вероятностей. Чем больше мы уверены в прогнозе, тем меньше потери журнала (при условии, что прогноз верен).

Например, -log (0,9) равно 0,10536, а -log (0,8) равно 0,22314. Таким образом, уверенность на 90% приводит к меньшим потерям журнала, чем на 80%. Однако уверенность на 90% или 80% не имеет никакого значения с точки зрения точности, точности или отзыва.

Потеря журнала - очень важный показатель и понятие. Обычно это выбор оценки для соревнований Kaggle. Если вы хотите узнать больше о потере журналов, я ранее написал две статьи: От теории информации до потери журналов и Почему мы заботимся о потерях журналов.

7. Чувствительность

Чувствительность, также известная как истинно положительный показатель (TPR), совпадает с отзывом. Следовательно, он измеряет долю положительного класса, который правильно предсказывается как положительный.

8. Специфика

Специфичность аналогична чувствительности, но сосредоточена на отрицательном классе. Он измеряет долю отрицательного класса, который правильно предсказывается как отрицательный.

Специфичность может быть связана с количеством ложных срабатываний (FPR). FPR равен 1 минус специфичность.

9. Кривая ROC.

В предыдущем разделе мы упоминали, что прогнозируемая метка класса определяется в соответствии с возвращаемыми значениями вероятности. В случае бинарной классификации мы имеем дело с вероятностью положительного класса. Обычно, если вероятность положительного класса выше 50%, прогнозируемая метка класса является положительным классом.

Однако мы можем изменить это пороговое значение на 50%. Например, если порог установлен как 70%, модель предсказывает наблюдение как положительное, только если предсказанная вероятность больше 70%.

Регулировка порогового значения изменяет некоторые предсказанные метки. Кроме того, производительность модели может незначительно меняться в зависимости от порогового значения. Ниже приведен пример, показывающий, как прогнозируемые классы изменяются в соответствии с пороговым значением.

Реальная производительность двоичного классификатора зависит от порогового значения. В этом смысле кривая ROC обеспечивает надежную и тщательную оценку производительности. Он суммирует производительность классификатора путем объединения матриц неточности для всех пороговых значений.

Кривая ROC имеет две оси, каждая из которых принимает значения от 0 до 1. Ось Y представляет собой истинно положительный показатель (TPR), а ось x - показатель ложного положительного результата (FPR).

10. AUC

Мы стремимся повысить уровень истинных положительных результатов (TPR), сохраняя при этом низкий уровень ложноположительных результатов. Как видно на кривой ROC, с увеличением TPR увеличивается и FPR. Итак, нужно решить, сколько ложных срабатываний мы можем терпеть.

Кривая ROC дает обзор производительности модели при различных пороговых значениях. AUC - это площадь под кривой ROC между (0,0) и (1,1), которую можно рассчитать с помощью интегрального исчисления. AUC в основном объединяет производительность модели при всех пороговых значениях. Наилучшее возможное значение AUC - 1, что указывает на идеальный классификатор. AUC равна нулю, если все прогнозы неверны.

Примечание. AUC не зависит от порогового значения классификации. Изменение порогового значения не меняет AUC, потому что это совокупная мера ROC.

Кривая ROC и AUC в основном используются в задачах бинарной классификации, но они также могут быть расширены и в мультиклассовых задачах.

Заключение

Не существует оптимального и простого выбора для всех задач. Нам необходимо четко определить требования и выбрать наиболее подходящую метрику на основе требований.

Выбор метрики также зависит от структуры данных. Например, несбалансированное распределение классов не позволяет нам использовать точность классификации.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.