В этой статье мы рассмотрим часто используемые метрики производительности для регрессии.

Давайте сначала поймем, что такое регресс. Регрессия - это тип обучения с учителем, который используется для оценки взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Он используется для прогнозирования непрерывного результата с учетом одной или нескольких переменных-предикторов. Скажем, например, мы хотим спрогнозировать стоимость домов в конкретном городе. Таким образом, будут факторы, от которых зависит цена дома, например, количество комнат в доме, возраст дома, местонахождение дома, площадь ковра в доме. Таким образом, эти факторы будут переменными-предикторами, тогда как цена дома будет зависимой переменной. Таким образом, можно использовать регрессию для прогнозирования цены дома с использованием вышеупомянутых предикторов. Теперь перейдем к наиболее часто используемым показателям эффективности для регрессии.

Среднеквадратичная ошибка (MSE). Среднеквадратичная ошибка является одним из наиболее распространенных показателей регрессии. Он определяется как квадрат разницы между фактическим и прогнозируемым значением. Он удаляет эффект знака и, таким образом, дает ошибку положительного значения.

Возведение в квадрат также увеличивает или увеличивает ошибку. То есть, чем больше разница между фактическим и прогнозируемым значением, тем больше будет квадрат положительной ошибки. Это больше ухудшает модель из-за большей разницы между фактическими и прогнозируемыми значениями.

Основное преимущество MSE заключается в том, что она полностью дифференцируема, поэтому ее можно легко использовать в качестве функции потерь. Но есть и недостатки. Во-первых, из-за эффекта возведения в квадрат в MSE единицы вывода, которые вы получаете, всегда будут возведены в квадрат. Об этом позаботится RMSE, о которой мы поговорим позже.

Если у вас есть выбросы в ваших данных, MSE может сильно колебаться, и его станет труднее интерпретировать. Кроме того, если вы используете MSE в качестве метрики, рекомендуется нормализовать или стандартизировать ваши данные, в противном случае метрика сильно раздувается.

Среднеквадратичная ошибка (RMSE) - это наиболее широко используемый показатель регрессии. RMSE просто определяется как квадратный корень из MSE.

RMSE заботится о некоторых преимуществах MSE. Квадратный корень в RMSE приводит к тому, что единицы измерения совпадают с исходными единицами целевых значений. Кроме того, он устраняет эффект раздувания MSE, поскольку это квадратный корень из того же самого. Как и RMSE, MSE также наказывает модели с большими ошибками. Следовательно, он более полезен в сценариях, где более крупные ошибки более нежелательны, чем более мелкие. Но поскольку мы возводим разницы в квадрат, а затем извлекаем квадратный корень, RMSE также чувствителен к выбросам.

Среднеквадратичная логарифмическая ошибка (RMSLE) - определяется как квадратный корень из возведенной в квадрат разницы между логарифмом фактических и прогнозируемых значений. Давайте посмотрим на формулировку ниже:

У RMSLE есть несколько уникальных свойств. Прежде всего, RMSLE устойчив к выбросам. Когда мы берем журнал целевых значений, выбросы не сильно влияют на RMSLE, тогда как MSE или RMSE будут раздуваться.

Если рассматривать основную часть уравнения:

RMSLE фактически учитывает соотношение фактических и прогнозируемых значений. Таким образом, RMSLE можно использовать в сценариях, где нас интересует относительная ошибка между фактическими и прогнозируемыми значениями. Даже если величина увеличивается, но если соотношение остается таким же, значение RMSLE будет таким же. Кроме того, в некоторых случаях, когда целевые значения имеют длиннохвостое распределение, можно использовать RMSLE.

Средняя абсолютная ошибка (MAE) - измеряет среднее значение абсолютной разницы между фактическими и прогнозируемыми значениями.

Из приведенной выше формулировки видно, что MAE принимает абсолютную разницу между фактическим и прогнозируемым значением, поэтому ошибка всегда будет положительной. Кроме того, поскольку возведения в квадрат нет, единицы будут такими же, как и исходные единицы целевого значения. MAE не придает больший или меньший вес различным типам ошибок, он одинаково наказывает как большие, так и меньшие ошибки. Следовательно, он более устойчив к выбросам и линейно увеличивается. В любом случае, если вы хотите уделять много внимания выбросам, MAE может оказаться неподходящим выбором.

Средняя абсолютная ошибка в процентах (MAPE) - это также форма относительной ошибки, поскольку она выражается в процентах. Давайте посмотрим на формулировку ниже:

Как видно из приведенной выше формулы, ошибка выражена в процентах. Кроме того, мы можем видеть, что фактическое значение находится в знаменателе, следовательно, MAPE будет больше наказывать модель за переоценку целевой переменной, чем за недооценку. MAPE также нельзя использовать, если в ваших основных истинных значениях есть нули.

R-квадрат-. Этот показатель измеряет силу связи между моделью и зависимой переменной. Он объясняет степень согласия, что означает, что этот показатель дает нам представление о процентной дисперсии в зависимой переменной, которую могут идентифицировать независимые переменные.

Ну, это соотношение текущей модели с базовой. Здесь мы рассматриваем базовую модель как ту, которая предсказывает среднее значение целевой переменной. Он сравнивает нашу текущую модель с базовой моделью и сообщает нам, насколько лучше или хуже она работает. R-квадрат всегда будет меньше 1.

Если значение R-Square равно 0, то наша текущая модель не лучше, чем наша базовая модель, а если оно равно 1, то наша текущая модель предсказывает фактические значения целевых переменных. Последняя ситуация невозможна. Отрицательное значение r-квадрата предполагает, что текущая модель хуже, чем базовая модель. Обычно более высокое значение r-квадрата указывает на то, что наша регрессионная модель хорошо подходит для наших целевых наблюдений.

Основным недостатком этой метрики является то, что вы не можете оценить, являются ли прогнозы смещенными или нет. Это можно оценить с помощью графиков остатков. Кроме того, он растет с увеличением числа переменных-предикторов, следовательно, он склоняется к более сложным моделям.

Скорректированный R-квадрат- Это импровизированная версия R-квадрата. Как упоминалось выше, r-квадрат увеличивается с увеличением числа переменных-предикторов, хотя, возможно, не произойдет значительного улучшения производительности модели. Это может позволить нам сделать неправильные выводы о нашей модели. Скорректированный r-квадрат решает эту проблему.

Это наказывает модель за добавление большего количества независимых переменных, которые не обязательно соответствуют модели. Скорректированный r-квадрат увеличивается только в том случае, если независимые переменные помогают улучшить производительность модели.

Итак, мы рассмотрели все обычно используемые метрики регрессии. Я также вернусь к классификационным метрикам, так что следите за обновлениями.

Если вам нравится читать, а затем подписывайтесь на меня здесь для получения дополнительных материалов по науке о данных, а также связывайтесь со мной в Linkedin, мы с удовольствием поговорим с вами о мире данных.

Спасибо за чтение.