Существует пять типов метрик регрессии, по которым мы можем найти ошибки или их производительность. Давайте посмотрим один за другим: -

MAE (средняя абсолютная ошибка)

- Это не что иное, как среднее значение разницы между фактическими значениями и прогнозируемыми значениями.

- Давайте посмотрим на преимущества и недостатки этой метрики, потому что, если она идеальна, у нас нет пяти метрик.

- Преимущества: - А) Единица МАЭ, как и единица выходного столбца, одинакова. Вот почему это легко понять. Б) Он устойчив к выбросу.

- Недостатки: - В этой метрике мы используем модуль, а график модуля не дифференцируем в начале координат. Вы решаете эту проблему следующей метрикой.

MSE (среднеквадратическая ошибка)

- В этой метрике мы убрали модуль и возвели в квадрат функцию потерь в МАЭ.

СКО = (MAE)²

- Преимущества A) Мы можем использовать MSE в качестве функции потерь, потому что она дифференцируема в любой заданной точке.

- Недостатки А) Нелегко интерпретировать, потому что ответ находится в квадрате. Б) Не устойчив к выбросам.

RMSE (среднеквадратичная ошибка)

  • Это обновление причины MSE, поскольку мы видели, что недостатком MSE является то, что он не интерпретирует единицу вывода, но RMSE решает эту проблему.
  • Это квадратный корень из MSE
  • СКО = √ СКО

- Преимущество: - A) Единица вывода и RMSE одинаковы

- Недостаток: - A) Он не устойчив к выбросам.

Это три показателя, представляющие собой функцию ошибки/потери, которая дает представление о том, сколько ошибок присутствует в модели. Давайте посмотрим оставшиеся два: -

Оценка R2

- Это сравнение средней линии с линией линейной регрессии.

- Он также известен как коэффициент детерминации, а также качество подгонки.

R2 = 1 — (ССр/ССм)

Где,

SSm = сумма квадратов ошибок в средней строке.

SSr = сумма квадратов ошибок в линии регрессии.

Скорректированная оценка R2

- При добавлении нерелевантного столбца в наш набор данных показатель R2 увеличится или останется прежним, но показатель R2 должен уменьшиться (причина нерелевантного столбца), чтобы справиться с этой проблемой. Скорректированный показатель R2 появился на картинке.

R2adj = 1- ((1-R2)(n-1))/(n-1-k)

Где,

n= количество строк в наборе данных

K = входные столбцы в наборе данных