Метрики оценки используются для измерения производительности модели машинного обучения. Важно выбрать правильную оценочную метрику для модели, чтобы решить проблему и достичь желаемой цели. В этом блоге приведены некоторые из наиболее часто используемых показателей оценки для модели линейной регрессии:
1. Среднеквадратическая ошибка (MSE):
Среднеквадратическая ошибка (MSE) представляет собой среднее квадратов разностей между прогнозируемыми и фактическими значениями. Он рассчитывается следующим образом:
MSE = (1/n) * Σ(yi — ŷi)²
где n — количество точек данных, yi — фактическое значение, а ŷi — прогнозируемое значение.
Значение MSE обратно пропорционально производительности модели. Более низкий MSE указывает на лучшую производительность модели.
Следующий код является примером расчета MSE.
from sklearn.metrics import mean_squared_error # Actual values y_actual = [3, -0.5, 2, 7] # Predicted values y_pred = [2.5, 0.0, 2, 8] # Calculating MSE mse = mean_squared_error(y_actual, y_pred) print("Mean Squared Error:", mse)
2. Среднеквадратическая ошибка (RMSE):
Среднеквадратическая ошибка, как следует из названия, представляет собой квадратный корень из средней квадратичной ошибки. Он измеряет квадратный корень из среднего значения квадратов разностей между прогнозируемыми и фактическими значениями. Он рассчитывается следующим образом:
СКО = √(СКО)
Более низкий RMSE указывает на лучшую производительность модели.
Ниже приведен пример кода для расчета RMSE с использованием библиотеки scikit-learn в Python:
from sklearn.metrics import mean_squared_error # Actual values y_actual = [3, -0.5, 2, 7] # Predicted values y_pred = [2.5, 0.0, 2, 8] # Calculating MSE mse = mean_squared_error(y_actual, y_pred) # Calculating RMSE rmse = np.sqrt(mse) print("Root Mean Squared Error:", rmse)
3. R-квадрат (R²):
R-квадрат измеряет долю дисперсии зависимой переменной, которая объясняется независимой переменной в регрессионной модели. Он измеряет, насколько хорошо линия регрессии соответствует точкам данных. Он рассчитывается следующим образом:
R² = 1 — (РСС/ТСС)
где RSS — сумма квадратов остатков (разница между фактическими и прогнозируемыми значениями), а TSS — общая сумма квадратов (разница между фактическими значениями и средним значением фактических значений).
В отличие от MSE и RMSE, более высокий R² указывает на лучшую производительность модели.
Ниже приведен пример кода для расчета R-квадрата с использованием библиотеки scikit-learn в Python:
from sklearn.metrics import r2_score # Actual values y_actual = [3, -0.5, 2, 7] # Predicted values y_pred = [2.5, 0.0, 2, 8] # Calculating R-squared r2 = r2_score(y_actual, y_pred) print("R-squared:", r2)
В библиотеке scikit-learn доступно множество других показателей оценки, таких как оценка F1, оценка отзыва, оценка ROC-AUC и т. д., которые используются для различных типов моделей машинного обучения.
Удачного обучения!
Для получения более интересных блогов о машинном обучении и науке о данных, пожалуйста, подпишитесь на мои истории.
Вы также можете связаться со мной в LinkedIn для совместной работы над проектами — LinkedIn