В некоторых статьях уже объяснялось, как создать модель и разделить данные на обучение и тестирование. На этом занятии будут объяснены метрики для оценки модели, созданной в контролируемом обучении. Как известно, в обучении с учителем существует два разных алгоритма: классификация (в основном дискретные значения) и регрессия (в основном непрерывные значения).

Оценка классификационно-логистической регрессии

Существуют некоторые оценочные показатели для модели классификации. И будут обрабатываться наиболее часто используемые метрики.

Матрица путаницы

Это наиболее часто используемая задача классификации машинного обучения для измерения производительности, когда на выходе могут быть два или более классов. Он содержит комбинации прогнозируемых и фактических значений.

Матрица путаницы или матрица ошибок показывает количество правильных и неправильных прогнозов, сделанных моделью, по сравнению с фактическими классификациями в тестовом наборе или какие типы ошибок делаются. Это матрица n*n, где n — количество классов. Эта матрица может быть сгенерирована после прогнозирования тестовых данных.

  • Точность: доля от общего количества правильных прогнозов.
  • Положительное прогностическое значение или точность: доля положительных случаев, которые были правильно идентифицированы.
  • Прогностическая ценность отрицательного результата: доля правильно идентифицированных отрицательных случаев.
  • Чувствительность или отзыв: доля фактических положительных случаев, которые были правильно идентифицированы.
  • Специфичность: доля фактических отрицательных случаев, которые были правильно идентифицированы.

  • Оценка F1 или F-мера. Это единая метрика, сочетающая точность и полноту. Чем выше оценка F1, тем лучше производительность нашей модели. Диапазон для оценки F1 составляет [0,1]. Оценка F1 представляет собой средневзвешенное значение точности и полноты. Классификатор получит высокий F-балл только в том случае, если и точность, и полнота будут высокими. Эта метрика отдает предпочтение только классификаторам с аналогичной точностью и полнотой.

Оценка линейной регрессии

Конечно, это совсем другие показатели, чем те, которые используются в классификации. Здесь прогнозируется непрерывный диапазон вместо дискретного числа в классах. Причина этого может быть объяснена следующим образом; мы можем предсказать цену автомобиля в 40 тысяч, но его можно продать за 43 тысячи. Было бы неплохо. Но поскольку в классификации упоминаются в основном бинарные значения, сложно сказать правильно-неправильно или хорошо-плохо. Поэтому здесь используются другие показатели.

  1. Средняя абсолютная ошибка

MAE — это очень простая метрика, которая вычисляет абсолютную разницу между фактическими и прогнозируемыми значениями.

Преимущества

  • Вы получаете MAE в тех же единицах, что и выходная переменная.
  • Он наиболее устойчив к выбросам.

Недостатки

График MAE не дифференцируем, поэтому нам приходится применять различные оптимизаторы, такие как градиентный спуск, которые могут быть дифференцируемыми.

2. Коэффициент R2

Оценка R2 — это метрика, которая говорит о производительности вашей модели, а не о потерях в абсолютном смысле того, сколько скважин использовала ваша модель. Напротив, MAE и MSE зависят от контекста, как мы видели, тогда как оценка R2 не зависит от контекста.

3. Среднеквадратическая ошибка

MSE является наиболее часто используемой и очень простой метрикой с небольшим изменением средней абсолютной ошибки. Среднеквадратичная ошибка определяет квадрат разницы между фактическим и прогнозируемым значением.

Преимущества

График MSE дифференцируем, поэтому вы можете легко использовать его в качестве функции потерь.

Недостатки

  • Значение, которое вы получите после расчета MSE, представляет собой квадратную единицу продукции. например, выходная переменная находится в метрах (м), тогда после вычисления MSE результат, который мы получаем, находится в метрах в квадрате.
  • Если у вас есть выбросы в наборе данных, то он больше всего наказывает выбросы, а расчетная MSE больше. Короче говоря, он не устойчив к выбросам, которые были преимуществом в MAE.

4. Среднеквадратическая ошибка (RMSE)

Это похоже на MSE; просто окончательное значение имеет квадратный корень, поскольку мы вычислили квадрат ошибок в MSE.

Преимущества RMSE

  • Выходное значение, которое вы получаете, находится в тех же единицах, что и требуемая выходная переменная, что упрощает интерпретацию потерь.

Недостатки RMSE

  • Он не так устойчив к выбросам по сравнению с MAE.

для выполнения RMSE мы должны использовать функцию квадратного корня NumPy NumPy над MSE.

5. Ошибка журнала среднеквадратичного значения

Регистрация метрики RMSE замедляет масштаб ошибки. Метрика очень полезна, когда вы разрабатываете модель без вызова входных данных. В этом случае выход будет варьироваться в больших масштабах.

6. Скорректированный R2

Недостаток оценки R2 заключается в том, что при добавлении новых функций в данные оценка R2 начинает увеличиваться или остается постоянной, но никогда не уменьшается, поскольку предполагается, что при добавлении большего количества данных дисперсия данных увеличивается. Но проблема в том, что когда мы добавляем нерелевантный признак в набор данных, то в это время R2 иногда начинает увеличиваться, что неверно.