Как выбрать лучший показатель оценки для задач классификации

Полное руководство, охватывающее наиболее часто используемые метрики оценки для контролируемой классификации и их полезность в различных сценариях.

Чтобы правильно оценить модель классификации, важно тщательно продумать, какая метрика оценки является наиболее подходящей.

В этой статье будут рассмотрены наиболее часто используемые метрики оценки для задач классификации, включая соответствующие примеры, и будет предоставлена ​​информация, необходимая для выбора среди них.

Классификация

Проблема классификации характеризуется предсказанием категории или класса данного наблюдения на основе его соответствующих признаков. Выбор наиболее подходящей оценочной метрики будет зависеть от аспектов производительности модели, которые пользователь хотел бы оптимизировать.

Представьте себе прогностическую модель, нацеленную на диагностику конкретного заболевания. Если эта модель не сможет обнаружить заболевание, это может привести к серьезным последствиям, таким как задержка лечения и причинение вреда пациенту. С другой стороны, если модель ложно диагностирует здорового пациента, это также может привести к дорогостоящим последствиям, поскольку здоровый пациент подвергается ненужным тестам и лечению.

В конечном итоге решение о том, какую ошибку минимизировать, будет зависеть от конкретного варианта использования и связанных с ним затрат. Давайте рассмотрим некоторые из наиболее часто используемых показателей, чтобы пролить больше света на это.

Метрики оценки

Точность

Когда классы в наборе данных сбалансированы — то есть, если в каждом классе имеется примерно равное количество образцов — точность может служить простой и интуитивно понятной метрикой для оценки производительности модели.

Проще говоря, точность измеряет долю правильных прогнозов, сделанных моделью.

Чтобы проиллюстрировать это, давайте взглянем на следующую таблицу, показывающую как фактические, так и предсказанные классы:

В этом примере у нас всего 10 выборок, 6 из которых были предсказаны правильно (зеленая заливка).

Таким образом, нашу точность можно рассчитать следующим образом:

Чтобы подготовиться к тому, что произойдет с приведенными ниже показателями, стоит отметить, что верные прогнозы представляют собой сумму истинных положительных результатов и истинных отрицательных результатов.

Истинно положительный (TP) имеет место, когда модель правильно предсказывает положительный класс.

Истинно отрицательный (TN) имеет место, когда модель правильно предсказывает отрицательный класс.

В нашем примере истинно положительным является результат, в котором и фактический, и прогнозируемый классы равны 1.

Точно так же истинное отрицательное значение возникает, когда и фактический, и прогнозируемый классы равны 0.

Поэтому иногда вы можете увидеть формулу точности, записанную следующим образом:

Пример. Распознавание лиц. Чтобы обнаружить отсутствие или присутствие лица на изображении, точность может быть подходящей метрикой, поскольку стоимость ложного срабатывания (идентификация не лица как лица) или ложного отрицательного результата (неспособность идентифицировать лицо) примерно равны. Примечание. распределение меток классов в наборе данных должно быть сбалансированным, чтобы точность была подходящей мерой.

Точность

Метрика точности подходит для измерения доли правильных положительных прогнозов.

Другими словами, точность определяет способность модели правильно идентифицировать истинно положительные образцы.

В результате он часто используется, когда целью является минимизация ложных срабатываний, как в случае с такими областями, как обнаружение мошенничества с кредитными картами или диагностика заболеваний.

Ложное срабатывание (FP) происходит, когда модель неправильно предсказывает положительный класс, указывая на то, что данное условие существует, хотя на самом деле его нет.

В нашем примере ложное срабатывание — это результат, при котором прогнозируемый класс должен был быть равен 0, но на самом деле был равен 1.

Поскольку точность измеряет долю положительных прогнозов, которые на самом деле являются истинными положительными, она рассчитывается следующим образом:

Пример.Обнаружение аномалий. Например, при обнаружении мошенничества точность может быть подходящей оценочной метрикой, особенно когда цена ложных срабатываний высока. Идентификация немошеннических действий как мошеннических может привести не только к дополнительным затратам на расследование, но и к высокому уровню неудовлетворенности клиентов и увеличению оттока клиентов.

Отзывать

Когда целью задачи прогнозирования является минимизация ложноотрицательных результатов, отзыв служит подходящей оценочной метрикой.

Отзыв измеряет долю истинных положительных результатов, правильно идентифицированных моделью.

Это особенно полезно в ситуациях, когда ложноотрицательные результаты обходятся дороже, чем ложноположительные.

Ложноотрицательный (FN)возникает, когда модель неправильно предсказывает отрицательный класс, указывая на то, что данное условие отсутствует, хотя на самом деле оно присутствует.

В нашем примере ложноотрицательный результат — это результат, при котором прогнозируемый класс должен был быть равен 1, но на самом деле был равен 0.

Отзыв рассчитывается следующим образом:

Пример:диагностика заболеваний. Например, при тестировании на COVID-19 отзыв является хорошим выбором, когда цель состоит в том, чтобы выявить как можно больше положительных случаев. В этом случае допускается большее количество ложноположительных результатов, поскольку приоритетом является минимизация ложноотрицательных результатов для предотвращения распространения болезни. Возможно, цена пропуска положительного случая намного выше, чем ошибочная классификация отрицательного случая как положительного.

Оценка F1

В тех случаях, когда важно учитывать как ложные срабатывания, так и ложноотрицательные результаты, например, при обнаружении спама, оценка F1 становится удобной метрикой.

Показатель F1 — это среднее гармоническое значение точности и полноты, которое обеспечивает сбалансированную оценку производительности модели с учетом как ложноположительных, так и ложноотрицательных результатов.

Он рассчитывается следующим образом:

Пример:классификация документов.Например, при обнаружении спама оценка F1 является подходящей оценочной метрикой, поскольку цель состоит в том, чтобы найти баланс между точностью и отзывом. Классификатор спамовой электронной почты должен правильно классифицировать как можно больше спамовых электронных писем (отзыв), а также избегать неправильной классификации законных электронных писем как спама (точность).

Площадь под кривой ROC (AUC)

Кривая рабочих характеристик приемника, или кривая ROC, представляет собой график, иллюстрирующий работу бинарного классификатора при всех порогах классификации.

Площадь под кривой ROC, или AUC, измеряет, насколько хорошо бинарный классификатор может различать положительные и отрицательные классы при разных пороговых значениях.

Это особенно полезная метрика, когда стоимость ложноположительных и ложноотрицательных результатов различается. Это связано с тем, что он учитывает компромисс между истинно положительными показателями (чувствительность) и ложноположительными показателями (1-специфичность) при разных пороговых значениях. Настроив порог, мы можем получить классификатор, который отдает приоритет либо чувствительности, либо специфичности, в зависимости от стоимости ложных срабатываний и ложных отрицаний конкретной проблемы.

Коэффициент истинно положительных результатов (TPR), или чувствительность, измеряет долю фактически положительных случаев, которые правильно идентифицируются моделью. Это точно так же, как вспомнить.

Он рассчитывается следующим образом:

Коэффициент ложноположительных результатов (FPR), или 1-специфичность, измеряет долю фактических отрицательных случаев, которые модель ошибочно классифицирует как положительные.

Он рассчитывается следующим образом:

Изменяя порог классификации от 0 до 1 и вычисляя TPR и FPR для каждого из этих порогов, можно получить кривую ROC и соответствующее значение AUC. Диагональная линия представляет производительность случайного классификатора, то есть классификатора, который делает случайные предположения о метке класса каждой выборки.

Чем ближе кривая ROC к верхнему левому углу, тем выше производительность классификатора. Соответствующий AUC, равный 1, указывает на идеальную классификацию, тогда как AUC, равный 0,5, указывает на эффективность случайной классификации.

Пример:проблемы ранжирования. Когда задача состоит в том, чтобы ранжировать образцы по вероятности их принадлежности к тому или иному классу, AUC является подходящей метрикой, поскольку она отражает способность модели правильно ранжировать образцы, а не просто классифицировать их. Например, его можно использовать в онлайн-рекламе, поскольку он будет оценивать способность модели правильно ранжировать пользователей по вероятности нажатия на рекламу, а не просто прогнозировать бинарный результат «клик/нет клика».

Потеря журнала

Логарифмическая потеря, также известная как логарифмическая потеря или кросс-энтропийная потеря, является полезной оценочной метрикой для задач классификации, где важны вероятностные оценки.

Потери журнала измеряют разницу между прогнозируемыми вероятностями классов и фактическими метками классов.

Это особенно полезная метрика, когда цель состоит в том, чтобы наказать модель за чрезмерную уверенность в предсказании неправильного класса. Метрика также используется в качестве функции потерь при обучении логистических регрессоров и нейронных сетей.

Для одной выборки, где y обозначает истинную метку, а p обозначает оценку вероятности, логарифмическая потеря рассчитывается следующим образом:

Когда истинная метка равна 1, потери журнала как функция предсказанных вероятностей выглядят следующим образом:

Можно ясно видеть, что потери журнала становятся меньше, чем более уверен классификатор в том, что правильная метка равна 1.

Потеря журнала также может быть обобщена для задач классификации нескольких классов. Для одной выборки, где k обозначает метку класса, а K соответствует общему количеству классов, его можно рассчитать следующим образом:

Как в бинарной, так и в мультиклассовой классификации потеря журнала является полезной мерой, которая определяет, насколько хорошо предсказанные вероятности соответствуют истинным меткам классов.

Пример.Оценка кредитного риска. Например, логарифм убытков можно использовать для оценки эффективности модели кредитного риска, которая предсказывает, насколько вероятно, что заемщик не выполнит свои обязательства по кредиту. Стоимость ложноотрицательного результата (прогнозирующего надежного заемщика как ненадежного) может быть намного выше, чем стоимость ложноположительного результата (прогнозирующего ненадежного заемщика как надежного). Таким образом, минимизация потерь журнала может помочь минимизировать финансовый риск кредитования в этом сценарии.

Заключение

Чтобы точно оценить производительность классификатора и принять обоснованные решения на основе его прогнозов, крайне важно выбрать соответствующую метрику оценки. В большинстве ситуаций этот выбор будет сильно зависеть от конкретной проблемы. Важными факторами, которые следует учитывать, являются баланс классов в наборе данных, важнее ли минимизировать ложные срабатывания, ложноотрицательные результаты или и то, и другое, а также значимость ранжирования и вероятностных оценок.

Понравилась эта статья?

Подключаемся! Вы можете найти меня в Twitter, LinkedIn и Substack.
Если вы хотите поддержать меня, вы можете сделать это через Medium Membership, который также предоставляет вам доступ ко всем моим историям. как и у тысяч других писателей на Medium.