Изучите основные

Метрики оценки: справочные руководства

Можете ли вы выйти за рамки точности в своей задаче по науке о данных?

Цель обучения или функция стоимости — это имитация реального вопроса и цели, которая отличается или ошибкой между прогнозом и истинными метками.

Метрики помогают преобразовать бизнес-цель в количественную цель. Специалист по данным и команда машинного обучения захотят сосредоточиться на построении модели машинного обучения, чтобы улучшить значение этой метрики.

Как мы знаем, в обучении с учителем есть две постановки проблемы: проблема классификации и проблема регрессии. Я часто вижу, как большинство людей говорят о точности, хотя точность не подходит для некоторых ситуаций (например, в случае несбалансированного класса).

В этой статье я рассмотрю практические метрики для каждой постановки задачи.

Проблема классификации

  • Матрица путаницы
  • Точность
  • Отзыв и точность
  • Оценка F1
  • Чувствительность и специфичность
  • Кривая ROC и AUROC
  • Каппа

Проблема регрессии

  • R-квадрат (R²)
  • Средняя абсолютная ошибка
  • Среднеквадратическая ошибка
  • Среднеквадратическая ошибка

Классификация

В этом разделе для демонстрации я буду использовать случай бинарной классификации.

Рассмотрим рисунок, наша задача построить модель для классификации того, какое изображение является кругом. Учитывая, что это контролируемое обучение, у нас будут выборочные целевые метки (в данном случае n = 10).

Мы можем вычислить распространенность по # of positive / total observations . Распространенность определяет дисбаланс классов, здесь у нас есть 3 прямоугольника из 10 изображений (отсюда 0,3).

Как только мы создадим алгоритм машинного обучения, модель будет прогнозировать на основе входных данных X и выводить в виде вероятности или класса (по умолчанию порог равен 0,5).

Матрица путаницы — где происходит путаница

Мы можем начать с рисования таблицы для распределения целей (рис. 3А и 3В). Здесь нас интересует положительный класс (в данном случае мы хотим предсказать увольнение сотрудников, тогда увольнение будет положительным классом).

Как только мы разработаем модель и используем ее для прогнозирования, мы можем добавить в таблицу измерение прогнозирования. Здесь мы получим матрицу путаницы (рисунок 3C), объясняющую производительность.

Чтобы прочитать это, мы можем начать с чтения первой строки, мы увидим, что из 47 (фактических) положительных случаев модель может правильно зафиксировать только 38 случаев. Мы можем повторить этот процесс для второй строки (тот же принцип можно применить для многоклассовой классификации).

Мы можем обозначить матрицу путаницы, используя понятие истинного положительного результата, ложного положительного результата и т. д. (рисунок 3D).

Модель сначала предсказывает, является ли класс положительным или отрицательным, а затем мы сопоставляем результат с фактическим. Если метка верна, она будет отмечена как Истина, в противном случае она будет отмечена как Ложь.

Теперь мы понимаем основы матрицы путаницы и можем использовать ее для вычисления различных показателей.

Точность — самая основная и широко используемая

Почти каждый результат модели оценивается с использованием точности. Точность — это измерение того, сколько случаев модель правильно идентифицирует.

Чем выше точность, тем лучше модель… Не во всех случаях, но точность. Возвращаясь к рисунку 3B, мы можем предсказать, что ни один из сотрудников не уволится, и мы по-прежнему правильно получаем 247 случаев (точность = 0,84). Вот как несбалансированный набор данных влияет на метрику, и мы должны разумно выбирать оценочную метрику.

Отзыв и точность — насколько релевантен прогноз

Так как же справиться с этим набором данных дисбаланса? Если мы вернемся к матрице путаницы, мы сможем определить, насколько хорошо работают наши предикторы.

Точность – это показатель, определяющий, какая часть положительного прогноза на самом деле является положительным. В этом сценарии точность этой модели составляет 0,41.

Точность — это хороший показатель, когда стоимость ложных срабатываний высока и мы хотим ее уменьшить (нацелены на повышение показателя точности). В случае увольнения сотрудников, если у нас низкий показатель точности, это означает, что все положительные прогнозы на самом деле являются отрицательными (сотрудники все еще остаются и не хотят увольняться). Это означает, что наша политика и бюджет хранения расходуются неправильно.

Отзыв – это измерение, позволяющее определить, насколько предсказание соответствует реальному положительному классу (насколько наше предсказание покрывает их). В этом сценарии отзыв равен 0,81.

Отзыв — это хороший показатель, когда общая неправильная классификация обходится очень дорого и когда нам нужно как можно больше охватить положительный класс. Хорошими вариантами использования являются обнаружение мошенничества и обнаружение болезней. Если прогнозировать, что у пациентов нет болезни, а на самом деле она есть, то это может привести к очень серьезным последствиям.

Прежде чем мы перейдем к другим показателям, обратите внимание, что в большинстве случаев мы не можем получить одновременно высокую точность и высокую полноту. Мы должны сосредоточиться на проблеме и выбрать правильную метрику, исходя из вашей цели.

Чтобы продемонстрировать взаимосвязь, посмотрите на кривую точности-отзыва слева. Кривая точности-отзыва представляет собой график точности (ось Y) и отзыва (ось X) для различных значений отсечки. Этот график полезен для определения порога и сравнения точности и полноты для набора данных дисбаланса.

Оценка F1 — смесь точности и отзыва

Итак, можем ли мы добиться высокой производительности по обоим показателям? К счастью, есть одна метрика, которая объединяет оба мира — результат Формулы-1. Оценка F1 представляет собой гармоническое среднее точности и полноты. Чем выше показатель F1, тем выше производительность модели (наилучшее значение равно 1 — идеальная точность и полнота).

Оценка F1 более полезна, чем точность, особенно для несбалансированного класса. Точность работает лучше всего, если ложноположительные и ложноотрицательные имеют одинаковую стоимость. Если стоимость ложноположительных и ложноотрицательных результатов сильно отличается. Лучше смотреть как на точность, так и на полноту, или выбрать что-то одно в зависимости от цели модели. В нашем сценарии оценка F1 составляет 0,55.

Чувствительность и специфичность — больше показателей для измерения бинарной классификации

Эти два показателя широко используются в медицинской сфере. Чувствительность и специфичность также обратно пропорциональны друг другу.

Чувствительность (или Истинно положительный показатель — TPR, положительный отзыв, коэффициент обнаружения) имеет то же определение, что и отзыв. , измеряет долю реальных положительных случаев, которые правильно фиксируются моделью. Модель с высокой чувствительностью может эффективно исключить заболевание, если тест (прогнозирующий результат) выдает отрицательный результат.

Специфичность (или Истинно отрицательный показатель — TNR, отрицательный отзыв) измеряет способность правильно обнаруживать отрицательные случаи. Модель с высокой специфичностью полезна для исключения заболевания или конкретных положительных случаев.

Например, медицинский тест для диагностики заболеваний высокой специфичности будет отбраковывать (тест отрицательный) у здоровых пациентов.

AUROC — как различать классы

AUROC (Aпричина, впод Rприемником, Oрабочие Cхарактеристики), или AUC — показатель производительности для правильного определения ранга модели классификации. Это позволит нам узнать способность различать положительные и отрицательные случаи.

Чтобы получить AUROC, сначала нам нужно построить кривую ROC, которая рассчитывается на основе TPR (истинно положительных показателей) и FPR (ложноположительных показателей). FPR можно просто рассчитать исходя из специфичности (FPR = 1-Specificity). Затем AUROC можно рассчитать как площадь под кривой ROC, которая отображает компромисс между TPR и FPR для разных порогов принятия решений.

  • Кривая ROC всегда начинается в нижнем левом углу (где порог решения равен 1).
  • Кривая ROC будет заканчиваться в верхнем правом углу (где порог решения равен 0).
  • Точка между этими двумя точками получается путем вычисления TPR и FPR для различных пороговых значений решения от 1 до 0. Примечание: если мы хотим построить более сглаженную кривую ROC, мы можем захотеть использовать больше пороговых значений решения (т. е. [0,00, 0,05, 0,10, …, 0,90, 0,95, 1,00]

Затем мы можем интерпретировать результат AUROC. Некоторые общие рекомендации:

  • AUROC 0,5 является худшим, так как соответствует подбрасыванию монеты (шанс 50–50).
  • AUROC менее 0,7 является неоптимальной моделью производительности.
  • AUROC между 0,7 и 0,8 — хорошая производительность.
  • AUROC больше 0,8 — отличная производительность.
  • AUROC 1,0 соответствует идеальному классификатору.

AUROC более полезен, чем точность для несбалансированного набора данных. Однако помните, что если наборы данных содержат больше отрицательных случаев, чем положительных. Это связано с частотой ложноположительных результатов. Если у нас будет улучшение ложноположительного результата, это не сильно изменится, поскольку здесь преобладает отрицательный случай! В таком случае полезно построить PRC (кривую точности-отзыва) и измерить площадь под ней.

Регрессия

Так чем же регрессия отличается от проблемы классификации? В самом общем виде классификация связана с идентификацией и прогнозированием метки, а регрессия — с прогнозированием количества. Быстрый пример: акции. Нам может понадобиться узнать, пойдет ли акция А вверх или вниз в следующем месяце (классификация) и какова будет цена акции А (регрессия). )?

R² — коэффициент детерминации

R-квадрат широко используется в статистике, основной целью которого является либо предсказание будущих результатов, либо проверка гипотез на основе других связанных данных. Это говорит нам о том, насколько хорошо наблюдаемые результаты воспроизводятся моделью.

Мы можем построить наблюдаемые значения с предсказанными (или подобранными) значениями, чтобы найти ошибку (или невязку).

График на рис. 16 показывает сильную связь с низким остатком. Это должно дать высокий R² в соответствии с данным уравнением.

Чтобы вычислить R², нам нужно вычислить общую сумму квадратов(SStot) и остаточную сумму квадратов (SSres), тогда как yᵢ — наблюдаемые переменные (цель), а eᵢ — ошибка/остаток (eᵢ = yᵢ — fᵢ).

Таким образом, R² представляет собой процент изменения переменной отклика, который объясняется линейной моделью, с диапазоном от 0 до 100%.

Средняя абсолютная ошибка — легко понять нетехническим специалистам.

Как и его название, MAE (средняя абсолютная ошибка) — это измерение ошибки (или разницы) между двумя непрерывными переменными путем усреднения величины ошибки (следовательно, абсолютной). MAE можно рассчитать, используя приведенное ниже уравнение.

yᵢ — это фактические целевые значения, а y-hat — это прогнозируемые значения, по сути, это ошибка прогноза. Обратите внимание, что эта метрика проста для понимания нетехническими людьми, но может быть не самой эффективной метрикой при оценке модели.

Среднеквадратическая ошибка — измерение систематической ошибки и дисперсии прогнозов.

MSE или MSD (среднеквадратичное отклонение) измеряет среднее квадратов ошибок, и всегда неотрицательные значения, близкие к нулю, лучше.

MSE — это второй момент ошибки, который включает как дисперсию, так и смещение модели (MSE = дисперсия + смещение²). Следовательно, если это несмещенная модель, MSE является дисперсией модели. Однако, поскольку он использует квадраты ошибок, он будет наказывать данные большими выбросами. Это может быть полезно при обучении модели машинного обучения.

Среднеквадратичная ошибка — верните единицу измерения к фактической единице.

RMSE или среднеквадратичное отклонение (RMSD) — еще одна метрика для измерения точности регрессионной модели. Чем ниже значение, тем лучше модель. Поскольку RMSE использует квадраты ошибок, он унаследовал ограничения вычислений от MSE. То есть он чувствителен к выбросам.

Он зависит от масштаба, поскольку он масштабируется до фактической единицы путем применения root к значению MSE.

Для несмещенной модели RMSE представляет собой квадратный корень из дисперсии, следовательно, стандартное отклонение.

Вывод

Здесь я рассмотрю наиболее распространенные метрики оценки для модели машинного обучения как для задач классификации, так и для регрессии с некоторыми их ограничениями и предположениями.

Надеюсь, у вас будет больше понимания и вы будете правильно использовать каждую метрику в каждой ситуации. Если у вас есть какие-либо вопросы, пожалуйста, не стесняйтесь комментировать или связаться со мной через LinkedIn здесь.