Классификация - важный сектор машинного обучения. Он способен различать клиентов, которые сохранят лояльность компании, а кто нет (прогноз оттока), обнаруживать различия в характеристиках кошек и собак (классификация изображений), распознавать закономерности в данных (распознавание образов) и многие другие приложения.

В этой статье мы обнаружим, что простая задача классификации - двоичная классификация - имеет несколько метрик, с помощью которых нужно оценивать, и определение правильной метрики является наиболее важным шагом при тестировании модели машинного обучения.

Бинарная классификация - это простая задача классификации элементов заданного набора данных (кошки против собак, юридические документы против подделок, изображения раковой ткани против изображений нормальной ткани) на 2 группы на основе правила классификации.

Давайте возьмем пример модели глубокого обучения, способной распознавать собак на фотографиях. Он успешно идентифицирует 8 собак из набора из 16 фотографий, который содержит 12 собак и 4 изображения кошек. Из 8 идентифицированных собак 5 действительно собаки. Остальные 3 кошки были ошибочно классифицированы как собаки! Для этого примера предположим, что классификация собак - это положительный класс, поскольку модель обучена идентификации собак, а неидентификация собак - это отрицательный класс.

Количество собак, идентифицированных моделью, которые на самом деле являются собаками, называется истинно положительными результатами (TP). (правильный прогноз [true] класс собак [положительный])

TP = 5 собак правильно классифицированы как собаки.

Количество собак, идентифицированных моделью, которые на самом деле являются кошками, называется ложными срабатываниями (FP). (неверный прогноз [false] класс собак [положительный])

FP = идентифицировано 8 собак - 5 настоящих собак = 3 кошки, неправильно классифицированные как собаки

Количество кошек, идентифицированных моделью, которые на самом деле являются кошками, называется истинным отрицанием (TN). (правильно предсказывает [true] класс кошек [отрицательный])

TN = всего 4 кошки - 3 кошки ошибочно отнесены к собакам = 1 кошка правильно отнесена к кошке.

Количество кошек, идентифицированных моделью, которые на самом деле являются собаками, называется ложноотрицательным (FN). (неверный прогноз [false] класс кошек [негативный])

FN = всего 12 собак - 5 собак правильно идентифицированы = 7 собак неправильно определены как кошки

Как только мы получим четкое представление о TP, FP, TN и FN, мы сможем с уверенностью оценить точность, Точность и отзыв.

ТОЧНОСТЬ:

Точность показывает нам, насколько модель удобна для определения положительного и отрицательного классов. Он рассчитывается как сумма истинно положительных и истинно отрицательных результатов, разделенная на общую численность населения.

Точность = [TP + TN] / общая численность населения

5 + 1 / 16 = 0.375

У этой модели машинного обучения ужасная точность! Имея всего 37,5%, он очень плохо умеет отличить собаку от кошки.

ТОЧНОСТЬ:

Точность говорит нам о вероятности успеха при правильной положительной классификации классов. Он рассчитывается как количество истинных положительных результатов, деленное на общее количество положительных вызовов.

Точность = TP / [TP + FP].

5 / [5 + 3] = 0.625

Показатель точности нашей модели машинного обучения лучше, чем показатель точности, поскольку он охватывает около 62,5% всех положительных классов (собак) в наборе данных.

ОТЗЫВ:

Напомним, объясняется, насколько модель чувствительна к определению положительного класса. Он рассчитывается как количество истинно положительных результатов, разделенное на сумму истинных положительных и ложно отрицательных результатов.

Отзыв = TP / [TP + FN]

5 / [5 + 7] = 0.416

Оценка нашей модели даже хуже, чем наша оценка точности! Это означает, что модель чувствительна только на 41,6% к обнаружению собак.

Все мы можем согласиться с тем, что наша модель очень плохо идентифицирует собак. Но это не конец статьи. Я попытаюсь продемонстрировать, где точность, точность и отзывчивость могут оказаться чрезвычайно полезными.

Давайте рассмотрим еще один пример, в котором у нас есть модель машинного обучения, которая обучена предсказывать, есть у человека рак или нет. Он протестирован на наборе данных из 120 пациентов, у 12 из которых диагностирован рак, а у 108 здоровых.

Эта модель предсказывает, что 9 человек болеют раком, а 111 нет. В следующей таблице описаны TP, FP, TN и FN для этой модели. Давайте посчитаем точность, точность и отзывчивость.

TN = 106, FP = 5, FN = 8 и TP = 4.

Точность = [TP + TN] / общая популяция = [4 + 106] / 120 = 0,916.

91,6% Точность невероятная! Эта модель выглядит очень многообещающей.

Точность = TP / [TP + FP] = 4 / [4 + 5] = 0,444.

44,4% Плохая точность. Но точность была так хороша! Что пошло не так? Подождите, пока мы исследуем Recall.

Отзыв = TP / [TP + FN] = 4 / [4 + 8] = 0,333.

33,3% Отзыв - это ужасно!

Но у нас такой потрясающий показатель точности - не можем ли мы просто остановиться на точности и сделать вывод, что наша модель хороша? Означают ли что-нибудь для нас в данном случае «Точность» и «Напоминание»?

Ложные срабатывания (FP) для этой модели определяют, сколько раз человек классифицируется как больной раком, когда он / она здоров в реальной жизни. Это косвенная мера количества непреднамеренных тревог, которые оно вызывает у людей из-за неправильной классификации / прогноза. Низкое значение ложноположительного результата дает гораздо более высокую оценку точности.

С другой стороны, ложноотрицательные (FN) для этой модели определяют, сколько раз человек классифицируется как здоровый, когда он / она является больным раком в реальной жизни. Это серьезная ошибка.

Высокое значение FN может привести к гибели большого числа людей. Поскольку низкое значение FN приводит к гораздо более высокому показателю отзыва, очень важно, чтобы эти показатели нуждались в оценке для конкретных бизнес-потребностей.

В заключение - хотя высокие показатели точности оказывают успокаивающее влияние на нашу интуицию - приводя нас к ложным заявлениям о том, что наша модель машинного обучения работает очень хорошо, мы часто забываем сосредоточиться на таких мелочах, как точность и отзыв, которые иногда имеют наибольшее значение.