Метрики оценки используются для измерения производительности модели машинного обучения. Важно выбрать правильную оценочную метрику для модели, чтобы решить проблему и достичь желаемой цели. В этом блоге приведены некоторые из наиболее часто используемых показателей оценки для модели линейной регрессии:

1. Среднеквадратическая ошибка (MSE):

Среднеквадратическая ошибка (MSE) представляет собой среднее квадратов разностей между прогнозируемыми и фактическими значениями. Он рассчитывается следующим образом:

MSE = (1/n) * Σ(yi — ŷi)²

где n — количество точек данных, yi — фактическое значение, а ŷi — прогнозируемое значение.

Значение MSE обратно пропорционально производительности модели. Более низкий MSE указывает на лучшую производительность модели.

Следующий код является примером расчета MSE.

from sklearn.metrics import mean_squared_error

# Actual values
y_actual = [3, -0.5, 2, 7]

# Predicted values
y_pred = [2.5, 0.0, 2, 8]

# Calculating MSE
mse = mean_squared_error(y_actual, y_pred)

print("Mean Squared Error:", mse)

2. Среднеквадратическая ошибка (RMSE):

Среднеквадратическая ошибка, как следует из названия, представляет собой квадратный корень из средней квадратичной ошибки. Он измеряет квадратный корень из среднего значения квадратов разностей между прогнозируемыми и фактическими значениями. Он рассчитывается следующим образом:

СКО = √(СКО)

Более низкий RMSE указывает на лучшую производительность модели.

Ниже приведен пример кода для расчета RMSE с использованием библиотеки scikit-learn в Python:

from sklearn.metrics import mean_squared_error

# Actual values
y_actual = [3, -0.5, 2, 7]

# Predicted values
y_pred = [2.5, 0.0, 2, 8]

# Calculating MSE
mse = mean_squared_error(y_actual, y_pred)

# Calculating RMSE
rmse = np.sqrt(mse)

print("Root Mean Squared Error:", rmse)

3. R-квадрат (R²):

R-квадрат измеряет долю дисперсии зависимой переменной, которая объясняется независимой переменной в регрессионной модели. Он измеряет, насколько хорошо линия регрессии соответствует точкам данных. Он рассчитывается следующим образом:

R² = 1 — (РСС/ТСС)

где RSS — сумма квадратов остатков (разница между фактическими и прогнозируемыми значениями), а TSS — общая сумма квадратов (разница между фактическими значениями и средним значением фактических значений).

В отличие от MSE и RMSE, более высокий R² указывает на лучшую производительность модели.

Ниже приведен пример кода для расчета R-квадрата с использованием библиотеки scikit-learn в Python:

from sklearn.metrics import r2_score

# Actual values
y_actual = [3, -0.5, 2, 7]

# Predicted values
y_pred = [2.5, 0.0, 2, 8]

# Calculating R-squared
r2 = r2_score(y_actual, y_pred)

print("R-squared:", r2)

В библиотеке scikit-learn доступно множество других показателей оценки, таких как оценка F1, оценка отзыва, оценка ROC-AUC и т. д., которые используются для различных типов моделей машинного обучения.

Удачного обучения!

Для получения более интересных блогов о машинном обучении и науке о данных, пожалуйста, подпишитесь на мои истории.

Вы также можете связаться со мной в LinkedIn для совместной работы над проектами — LinkedIn