Наука о данных: Метрики моделей машинного обучения

Эта статья написана Alparslan Mesri и Cem ÖZÇELİK.

Существуют некоторые показатели, используемые для измерения производительности моделей, созданных в моделях машинного обучения, которые являются частью мира науки о данных. Они по-разному используются в моделях классификации и регрессии. В этой статье мы провели совместное исследование показателей, используемых для измерения производительности моделей машинного обучения.

Что такое матрица путаницы?

Матрица путаницы — это индикатор производительности, используемый в алгоритмах классификации. Здесь реальная ситуация и результаты установленной модели сравниваются и заносятся в таблицу. Столбец слева от матрицы путаницы представляет Фактическое состояние, а строки представляют результаты прогнозирования установленной модели (Прогноз).

Поясним эту ситуацию на примере, предположим, что мы оцениваем состояние здоровья пассажиров, погибших и выживших в аварии на «Титанике». Строка Actual 0 в первой строке таблицы показывает, был ли кто-либо из пассажиров жив или мертв в реальной аварии. Точно так же строка, соответствующая Actual 1, представляет пассажиров, которые действительно выжили. Столбец таблицы с выражением Predicted 0 представляет прогноз установленной модели о смерти пассажира на борту. Аналогичным образом столбец «Прогноз 1» представляет выживание путешественника. В наших установленных моделях пассажир, который, как мы предсказывали, выживет, мог на самом деле умереть, или пассажир, который, как мы предсказывали, выжил, мог на самом деле умереть.

Мы объяснили ситуации, представленные строками и столбцами нашей таблицы. Теперь поясним, что представляют собой синонимы TN, FP, FN, TP, которые также встречаются на изображении.

TN (истинно отрицательный): истинно отрицательные значения — это значения, которые мы правильно предсказываем, что пассажиры, погибшие в аварии, также погибли в установленной модели.

FP (ложноположительные): ложноположительные значения — это значения, которые предсказывают, что пассажиры, погибшие в аварии, переживут аварию в модели.

FN (ложноотрицательный): ложноотрицательные значения указывают количество пассажиров, выживших в аварии, и количество пассажиров, которые, по прогнозам, погибнут в модели.

TP (True Positive): этот синоним матрицы путаницы — это количество пассажиров, которое правильно предсказывает, что пассажиры, выжившие в аварии, также переживут аварию в модели.

Проблемы классификации могут проявляться как бинарные или множественные проблемы классификации. Если проблема, над которой мы работаем, имеет форму бинарности (смерть — выжить), как в титанической задаче, приведенной выше матрицы путаницы будет достаточно для этой задачи. В многоклассовых задачах, например, при определении команды-чемпиона в футбольной лиге, будет много классов. В этом случае необходимо будет добавить в матрицу путаницы.

Мы изучили основы матрицы путаницы. Теперь давайте дадим информацию о некоторых метриках. Это такие показатели, как Precision, Recall и Accuracy.

Точность

Это широко используемый критерий для измерения того, насколько успешна модель. Он выражает отношение количества правильно классифицированных образцов (TP+TN) к общему количеству образцов.

Давайте продолжим наш пример с Титаником. В нашем наборе данных, который мы использовали, мы увидели, что на корабле RMS Titanic было 1470 пассажиров. Предположим, что ситуации для 1470 пассажиров следующие:

Значение точности нашей модели бинарной классификации, которое мы установили в соответствии с изображением матрицы путаницы выше:

Точность: (400+1000) / (400+1000+45+25) = 95%

Как видно, по метрике хит-рейтинга мы можем с точностью 95% предсказать, кто выжил после крушения нашей модели «Титаник», а кто погиб.

Мы будем исходить из другого примера, чтобы объяснить другой показатель производительности, метрику точности, которая показывает точность нашей модели.

Точность

Например, допустим, вы работаете в банке. Предположим, мы получаем кредитные заявки от различных клиентов в наш банк. В этом случае давайте предположим, что мы пытаемся предотвратить плохие кредиты, чтобы предотвратить финансовые потери, которые могут возникнуть в резервах нашего банка. Плохая ссуда, о которой мы здесь говорим, - это ситуация, когда ссуда, предоставленная любому клиенту, не возвращается нашему банку.

Мы строим модель, чтобы предсказать, кто не будет возвращать кредит, а кто будет его возвращать. В такой ситуации:

ТП: Клиент не вернул, и мы прогнозировали, что клиент не вернет.

ФП: Клиент вернул деньги, но мы прогнозировали, что клиент не вернет деньги.

Причина, по которой мы используем точность вместо точности в этом сценарии, учитывая, что наш банк чувствителен к потерям, которые могут возникнуть из-за безнадежных кредитов, предоставление кредита нужному клиенту вместо предоставления кредита многим людям предотвратит наши возможные потери в значительной степени. . В этом случае мы используем показатель точности, чтобы убедиться, что мы отдаем должное правильному клиенту.

Когда использовать эту метрику: хорошо работает при высокой стоимости FP. В нашем примере, если стоимость безнадежных кредитов очень важна для банка, а прибыль, которую мы получим от выдаваемых кредитов, очень мала, в качестве показателя следует использовать точность.

Предположим, наша модель предсказала, что наш 30 клиентов, подавших заявку на получение кредита, не выплатит свой кредит. Для проверки модели мы дали нагрузку этим 30 клиентам, и только 10 из них не выплатили кредит. В этой ситуации число точности нашей модели рассчитывается как:

10 / 10 + 20 = 33%

Отзывать

Когда использовать эту метрику: хорошо работает при высокой стоимости FN. Например, допустим, вы строите модель, которая предсказывает, у кого рак, а у кого нет. В такой ситуации:

ТП: У человека рак, и мы предсказывали, что он есть.

ФН: У человека рак, но мы предсказывали, что его нет.

В таком случае наша стоимость FP относительно не так высока. Сказать пациенту «у вас рак», а у него его нет, не так уж и плохо. Но сказать пациенту «у вас нет рака», а на самом деле он есть, — гораздо более дорогостоящее предсказание.

Оценка F1

Как мы объяснили на приведенных примерах, две наши важные метрики производительности, полнота и точность, которые мы используем при оценке производительности нашей модели, дают нам преимущества в производительности по разным предметам, но они работают обратным образом друг с другом. Чтобы избежать этой сложности, мы можем использовать оценку F1 в качестве еще одной метрики производительности.

Соотношение реальных положительных значений (Recall) и гармоническое среднее точности-точности (Precision) берутся в модели, созданной для наказания ситуаций FP и FN, которые характеризуются как экстремальные ситуации, как рабочая логика F1-оценки. Этот критерий является мерой того, насколько хорошо работает созданная нами модель классификации, и часто используется для сравнения моделей классификации.

Кривая ROC (кривая рабочих характеристик приемника)

Кривая ROC — это широко используемый метод при оценке производительности моделей, используемых в задачах классификации. Хотя это теоретически сложно, подытоживая, можно сказать, что на самом деле это мера, рассчитанная на основе двух простых показателей.

TPR (True Positive Rate): истинно положительный показатель — это синоним отзыва, который мы обсуждали ранее. Его можно дать по этой формуле:

FPR (коэффициент ложноположительных результатов).Коэффициент ложноположительных результатов рассчитывается следующим образом:

После расчета этих двух метрик мы получаем графическое изображение с осью x TPR и осью y FPR и вычисляем площадь под линией. Это также называется кривой AUC (площадь под кривой).

Когда случайная классификация выполняется в установленной модели классификации, площадь под линией становится равной 0,5, как показано красной линией на изображении выше. Когда случайная классификация выполняется в установленной модели классификации, площадь под линией становится равной 0,5, как показано красной линией на изображении выше. Чем больше площадь под линией, представляющей отношение TPR/FPR модели, установленной на кривой ROC, тем выше вероятность успеха модели. Таким образом, чем больше значение F1 в модели, тем больше будет площадь под линией, представляющей модель. Как видно на изображении выше, мы можем сказать, что площадь под синей кривой больше, чем под оранжевой линией, поэтому это модель с лучшими характеристиками.

В регрессионных моделях независимая переменная Y оценивается с помощью ряда зависимых переменных X. Результаты, полученные в используемых здесь моделях, могут не полностью соответствовать действительности или мы получим неверные результаты. Поэтому первый вопрос, который следует задать в связи с этим, заключается в том, насколько ошибочен полученный неверный результат. Другими словами, какова дистанция между полученными результатами и реальностью?
В предыдущих разделах мы описали метрики, описывающие производительность моделей машинного обучения, установленных для задач классификации. В этом разделе мы объясним метрики, которые показывают критерии эффективности для регрессионных моделей, как это обычно используется в литературе, или «регрессионных» моделей.

R-квадрат и скорректированный R-квадрат:

Критерий R-квадрата, используемый в регрессионной модели, показывает, насколько вариация или вариация зависимой переменной из независимых переменных X, которые мы использовали для получения зависимой переменной в модели, может быть объяснена установленной регрессионной моделью.

Мера R-квадрата — это квадрат коэффициента корреляции, и R-квадрат выполняет свою работу без учета проблемы «переобучения», которую мы называем чрезмерным обучением. Слишком много независимых переменных в установленной регрессионной модели может привести к тому, что данные модели будут в высокой степени согласовываться с обучающими данными. Однако установленная высокосовместимая модель может не добиться такого же успеха на этапе тестирования. В этом случае мы можем применить метод R Square. Скорректированный квадрат R, с другой стороны, снижает переменные, добавляя дополнительные независимые переменные к установленной модели, и предотвращает переоснащение.
Мы можем рассчитать методы R Squared и Adjusted R Squared следующим образом:

Среднеквадратическая ошибка (MSE):

После расчета критерия R Square давайте рассмотрим еще один критерий производительности для нашей регрессионной модели — «Среднеквадратическая ошибка».

Среднеквадратическая ошибка — это критерий, показывающий, насколько результаты, полученные по установленной регрессионной модели, отличаются от истинного значения. Маловероятно, что мы можем сделать слишком много выводов только из одного результата, поэтому сравнение средних значений R-квадрата для разных моделей помогает нам получить наилучшую модель регрессии.

Среднеквадратичная ошибка (RMSE)

Среднеквадратическая ошибка — это квадратный корень из значения среднеквадратичной ошибки, которое мы объяснили в предыдущем разделе. В исследованиях обнаруживается большее среднеквадратичное отклонение по сравнению с MSE, потому что иногда значение MSE может давать значения, которые нельзя сравнивать с другими моделями. В этом случае используется RMSE. Однако MSE чувствителен к ситуациям, которые кажутся выбросами, также известными как выбросы.