Существует пять типов метрик регрессии, по которым мы можем найти ошибки или их производительность. Давайте посмотрим один за другим: -
MAE (средняя абсолютная ошибка)
- Это не что иное, как среднее значение разницы между фактическими значениями и прогнозируемыми значениями.
- Давайте посмотрим на преимущества и недостатки этой метрики, потому что, если она идеальна, у нас нет пяти метрик.
- Преимущества: - А) Единица МАЭ, как и единица выходного столбца, одинакова. Вот почему это легко понять. Б) Он устойчив к выбросу.
- Недостатки: - В этой метрике мы используем модуль, а график модуля не дифференцируем в начале координат. Вы решаете эту проблему следующей метрикой.
MSE (среднеквадратическая ошибка)
- В этой метрике мы убрали модуль и возвели в квадрат функцию потерь в МАЭ.
СКО = (MAE)²
- Преимущества A) Мы можем использовать MSE в качестве функции потерь, потому что она дифференцируема в любой заданной точке.
- Недостатки А) Нелегко интерпретировать, потому что ответ находится в квадрате. Б) Не устойчив к выбросам.
RMSE (среднеквадратичная ошибка)
- Это обновление причины MSE, поскольку мы видели, что недостатком MSE является то, что он не интерпретирует единицу вывода, но RMSE решает эту проблему.
- Это квадратный корень из MSE
- СКО = √ СКО
- Преимущество: - A) Единица вывода и RMSE одинаковы
- Недостаток: - A) Он не устойчив к выбросам.
Это три показателя, представляющие собой функцию ошибки/потери, которая дает представление о том, сколько ошибок присутствует в модели. Давайте посмотрим оставшиеся два: -
Оценка R2
- Это сравнение средней линии с линией линейной регрессии.
- Он также известен как коэффициент детерминации, а также качество подгонки.
R2 = 1 — (ССр/ССм)
Где,
SSm = сумма квадратов ошибок в средней строке.
SSr = сумма квадратов ошибок в линии регрессии.
Скорректированная оценка R2
- При добавлении нерелевантного столбца в наш набор данных показатель R2 увеличится или останется прежним, но показатель R2 должен уменьшиться (причина нерелевантного столбца), чтобы справиться с этой проблемой. Скорректированный показатель R2 появился на картинке.
R2adj = 1- ((1-R2)(n-1))/(n-1-k)
Где,
n= количество строк в наборе данных
K = входные столбцы в наборе данных