Метрики оценки модели в машинном обучении — классификация и регрессионный анализ

Метрики оценки играют ключевую роль в разработке модели машинного обучения, поскольку они дают представление об областях, требующих улучшения. В машинном обучении существуют разные критерии оценки модели: такие метрики, как точность, точность, полнота, оценка F1, ROC, AUC, используются для задач классификации, а такие метрики, как MSE, RMSE, MAE, оценка R2, могут использоваться для задач регрессии.

В этой статье я объясню метрики оценки модели, используемые в машинном обучении.

Ниже вы можете найти документ, в котором я визуализировал метрики оценки с определениями и формулами.

В машинном обучении существуют разные критерии оценки модели.

Мы решаем, какие показатели выбрать, в зависимости от того, является ли наша проблема проблемой классификации или регрессии. Точность, точность, отзыв, F1 Score, ROC, AUC используются для задач классификации. Такие метрики, как MSE, RMSE, MAE, показатель R2, можно использовать для задач регрессии.

Показатели производительности для задач классификации

Первое, что нужно искать в метриках оценки модели, — это несбалансированное распределение классов в наборе данных. Является ли набор данных сбалансированным или несбалансированным; мы должны посмотреть на повторное вычисление, точность и их среднее гармоническое, метрики F1 Score. Мы также смотрим на значение AUC и получаем представление о сделанной нами классификации.

В машинном обучении для задач классификации используются метрики оценки модели, такие как точность, воспроизводимость, полнота, оценка F1, ROC, AUC.

Матрица путаницы

Матрица путаницы – это таблица вероятностей, содержащая фактические и прогнозированные измерения количества правильных и неправильных прогнозов, сделанных классификатором.

Вот ключевые термины, которые помогут нам определить показатели:

True Positive (TP) — фактическое положительное значение и прогнозируемое положительное значение

True Negative (TN) — фактическое отрицательное значение и прогнозируемое отрицательное значение

Ложное срабатывание (FP) / Ошибка типа I — фактическое значение Отрицательное и прогнозируемое значение Положительное

Ложноотрицательный (FN) / Ошибка типа II — фактическое значение Положительное и прогнозируемое значение Отрицательное

  • Точность

Точность используется для описания близости измерения к истинному значению. Это коэффициент правильной классификации, другими словами, количество правильных прогнозов модели по всем сделанным прогнозам.

Точность можно использовать, если проблема классификации, которую мы имеем, имеет сбалансированное распределение классов.

Если в нашем наборе данных есть несбалансированное распределение, мы не можем напрямую использовать значение точности. Нам также нужно посмотреть на значения Recall и Precision.

  • Точность

Это вероятность успеха положительных предсказаний класса (1).

  • Вспомнить

Это скорость, при которой положительный класс (1) был предсказан правильно. Он также известен как Чувствительность.

  • Оценка F1

Это гармоническое среднее значений точности и полноты.

При изменении порогового значения Точность и значения других показателей также меняются.

В этом случае нам нужно использовать другую метрику, которая будет учитывать все возможные изменения порога. Можно использовать измерение площади под кривой рабочих характеристик приемника.

  • Кривая ROC (кривая рабочих характеристик приемника)

Это метод оценки успеха в задачах классификации.

Он создает кривую между истинной положительной скоростью и ложноположительной скоростью. Соответственно, кривая, близкая к оси Истинных положительных показателей, будет Идеальным классификатором!

Например, мы устанавливаем пороговое значение равным 1, и мы создаем наши оценки для всех единиц наблюдения как 1 и 0, и мы строим матрицу путаницы по этим значениям. После этого мы смотрим на истинно положительный и ложноположительный показатель и отмечаем значения, которым эти значения соответствуют, затем меняем пороговое значение на 0,5. После этого снова присваиваем 1 и 0 классы по оценкам всех единиц наблюдения и снова создаем матрицу путаницы. После этого мы смотрим на истинно положительные и ложноположительные показатели и отмечаем значения, которым эти значения соответствуют. Мы повторяем эти операции, изменяя пороговое значение и отмечая найденные значения на графике. Вот как мы строим кривую ROC!

Как мы оцениваем этот график кривой?

AUC (площадь под кривой)

Это площадь под кривой ROC. Это выражение кривой ROC с одним числовым значением.

Показатели производительности для задач регрессии

В машинном обучении: такие показатели, как MSE, RMSE, MAE, оценка R, могут использоваться для задач регрессии.

Среднеквадратическая ошибка (MSE)

Среднеквадратическая ошибка (MSE) — это среднее значение квадрата ошибки. Он более популярен, чем средняя абсолютная ошибка, потому что основное внимание уделяется большим ошибкам. Это связано с тем, что квадрат члена экспоненциально увеличивает большие ошибки по сравнению с меньшими.

Среднеквадратичная ошибка (RMSE)

Среднеквадратическая ошибка (RMSE) — это квадратный корень из MSE. Это стандартный способ измерения ошибки модели. Как правило, чем ниже RMSE, тем лучше.

Средняя абсолютная ошибка

Это среднее значение абсолютного значения ошибок. Это самая простая из метрик для понимания, так как это просто средняя ошибка.

Оценка R2

Оценка R2 представляет собой процент объяснения зависимой переменной независимых переменных в наборе данных. Он представляет, насколько близко точки данных находятся к подобранной линии регрессии. Наилучшая возможная оценка — 1,0, и она может быть отрицательной (поскольку модель может быть сколь угодно хуже).

Заключение

В этой статье я описал метрики оценки модели, используемые в машинном обучении для оценки производительности моделей классификации и регрессии.

Я также представил документ, выше которого я визуализировал определение и формулы метрик оценки модели.

Подпишитесь, чтобы получать больше обновлений!

С наилучшими пожеланиями, Неслихан.