Когда вы выполнили исследовательский анализ данных в своем наборе необработанных данных, установили все параметры, и теперь вы хотите выбрать наиболее эффективную модель на основе вашего бизнес-вывода. Это делается путем оценки модели по некоторым показателям. Различные алгоритмы машинного обучения имеют разные показатели производительности. Для регрессии у нас есть R-квадрат, MAE, RMSE и другие, а для классификации у нас есть площадь под кривой (AUC), чувствительность, специфичность и точность.

В этой статье мы сосредоточимся на показателях эффективности классификации.

Матрица путаницы, в соответствии со своим названием, представляет собой матрицу 2x2 с четырьмя функциями. В первой строке матрицы путаницы находятся True Positive и False Positive. Затем вторая строка включает False Negative и True Negative.

Чтобы ясно понять это, давайте разберем каждый термин в матрице путаницы.

Ложноположительный: отклонение нулевой гипотезы, если она верна. Также известна как ошибка типа I.

Коэффициент ложных срабатываний рассчитывается как:

Ложноотрицательный: принятие нулевой гипотезы, если она ложна. Также известна как ошибка типа II. Это всегда должно быть сведено к минимуму.

Коэффициент ложноотрицательных результатов рассчитывается как:

Частота ложных срабатываний = 1 — специфичность

Истинно положительный: это наблюдения, которые были правильно предсказаны алгоритмом.

Истинный положительный показатель рассчитывается как:

Истинно отрицательный: наблюдения, которые были правильно отнесены к классу отрицательных.

Истинный отрицательный коэффициент рассчитывается как:

Когда данные сбалансированы, мы используем точность. Если есть дисбаланс, мы используем отзыв и точность. Точность определяется как количество правильных прогнозов, которые модель делает среди всех видов прогнозов.

Отзыв: также известен как чувствительность и доля истинно положительных результатов (TPR). Он вычисляется из общих фактических положительных значений; сколько мы предсказали правильно?

Точность. Также известна как положительное прогнозное значение. Это количество фактических положительных результатов из общего числа положительных значений. Это функция ложного срабатывания.

В соответствии с бизнес-заявлением и моделью мы решаем, будет ли ложноотрицательный или ложноположительный результат. Затем возьмите правильную метрику для оценки производительности модели. Если ложное срабатывание важно, мы используем Precision; если необходим ложноотрицательный результат, мы используем Отзыв.

Например:

  • Если фондовому рынку грозит крах, мы должны сосредоточиться на обоих. Следовательно, метрикой производительности в данном случае является F-Score.
  • Отзыв должен быть приоритетным для раковой (или любой другой медицинской) классификации. В тех случаях, когда необходимы положительные образцы, ложноотрицательный результат опасен.
  • Для обнаружения спама в наших ежедневных электронных письмах мы уделяем особое внимание точности.

Могут быть случаи, когда нам нужно учитывать как полноту, так и точность. В таких случаях в игру вступает оценка F-бета.

Мы сохраняем бета = 1, когда необходимы как ложноотрицательный, так и положительный результат. Тогда формула оценки F-бета равна среднему гармоническому.

Когдаложноположительный результат оказывает большее влияние, чем ложноотрицательный результат, используйте бета-значение от 0 до 1, обычно 0,5. В этом случае мы уменьшаем значение бета. Точно так же мы увеличиваем бета, если ложноотрицательный результат более важен.

Вместо того, чтобы перегружаться множеством матриц путаницы, графики Характеристики оператора-получателя и ROC обобщаютинформацию.

Кривая ROC дает вероятность и тестируется на различных пороговых значениях. Площадь под кривой (AUC), дающая значение в диапазоне от 0 до 1, говорит о способности модели различать классы. Значение AUC, близкое к 1, считается хорошей моделью с правильными параметрами для разделения классов.

На графике ROC по оси Y отложена чувствительность, которая соответствуетистинному положительному показателю. Ось X — ложноположительный показатель.

Область под кривой AUC облегчает сравнение двух ROC. Большая AUC лучше.

Модель всегда должна иметь AUC больше 0,5. Если он равен 0,5 или ниже, то это указывает на то, что модель не может различать классы.

При работе с ROC и AUC мы должны выбрать такое пороговое значение, чтобы TPR был высоким, а FPR — низким.