Классификация - важный сектор машинного обучения. Он способен различать клиентов, которые сохранят лояльность компании, а кто нет (прогноз оттока), обнаруживать различия в характеристиках кошек и собак (классификация изображений), распознавать закономерности в данных (распознавание образов) и многие другие приложения.
В этой статье мы обнаружим, что простая задача классификации - двоичная классификация - имеет несколько метрик, с помощью которых нужно оценивать, и определение правильной метрики является наиболее важным шагом при тестировании модели машинного обучения.
Бинарная классификация - это простая задача классификации элементов заданного набора данных (кошки против собак, юридические документы против подделок, изображения раковой ткани против изображений нормальной ткани) на 2 группы на основе правила классификации.
Давайте возьмем пример модели глубокого обучения, способной распознавать собак на фотографиях. Он успешно идентифицирует 8 собак из набора из 16 фотографий, который содержит 12 собак и 4 изображения кошек. Из 8 идентифицированных собак 5 действительно собаки. Остальные 3 кошки были ошибочно классифицированы как собаки! Для этого примера предположим, что классификация собак - это положительный класс, поскольку модель обучена идентификации собак, а неидентификация собак - это отрицательный класс.
Количество собак, идентифицированных моделью, которые на самом деле являются собаками, называется истинно положительными результатами (TP). (правильный прогноз [true] класс собак [положительный])
TP = 5 собак правильно классифицированы как собаки.
Количество собак, идентифицированных моделью, которые на самом деле являются кошками, называется ложными срабатываниями (FP). (неверный прогноз [false] класс собак [положительный])
FP = идентифицировано 8 собак - 5 настоящих собак = 3 кошки, неправильно классифицированные как собаки
Количество кошек, идентифицированных моделью, которые на самом деле являются кошками, называется истинным отрицанием (TN). (правильно предсказывает [true] класс кошек [отрицательный])
TN = всего 4 кошки - 3 кошки ошибочно отнесены к собакам = 1 кошка правильно отнесена к кошке.
Количество кошек, идентифицированных моделью, которые на самом деле являются собаками, называется ложноотрицательным (FN). (неверный прогноз [false] класс кошек [негативный])
FN = всего 12 собак - 5 собак правильно идентифицированы = 7 собак неправильно определены как кошки
Как только мы получим четкое представление о TP, FP, TN и FN, мы сможем с уверенностью оценить точность, Точность и отзыв.
ТОЧНОСТЬ:
Точность показывает нам, насколько модель удобна для определения положительного и отрицательного классов. Он рассчитывается как сумма истинно положительных и истинно отрицательных результатов, разделенная на общую численность населения.
Точность = [TP + TN] / общая численность населения
5 + 1 / 16 = 0.375
У этой модели машинного обучения ужасная точность! Имея всего 37,5%, он очень плохо умеет отличить собаку от кошки.
ТОЧНОСТЬ:
Точность говорит нам о вероятности успеха при правильной положительной классификации классов. Он рассчитывается как количество истинных положительных результатов, деленное на общее количество положительных вызовов.
Точность = TP / [TP + FP].
5 / [5 + 3] = 0.625
Показатель точности нашей модели машинного обучения лучше, чем показатель точности, поскольку он охватывает около 62,5% всех положительных классов (собак) в наборе данных.
ОТЗЫВ:
Напомним, объясняется, насколько модель чувствительна к определению положительного класса. Он рассчитывается как количество истинно положительных результатов, разделенное на сумму истинных положительных и ложно отрицательных результатов.
Отзыв = TP / [TP + FN]
5 / [5 + 7] = 0.416
Оценка нашей модели даже хуже, чем наша оценка точности! Это означает, что модель чувствительна только на 41,6% к обнаружению собак.
Все мы можем согласиться с тем, что наша модель очень плохо идентифицирует собак. Но это не конец статьи. Я попытаюсь продемонстрировать, где точность, точность и отзывчивость могут оказаться чрезвычайно полезными.
Давайте рассмотрим еще один пример, в котором у нас есть модель машинного обучения, которая обучена предсказывать, есть у человека рак или нет. Он протестирован на наборе данных из 120 пациентов, у 12 из которых диагностирован рак, а у 108 здоровых.
Эта модель предсказывает, что 9 человек болеют раком, а 111 нет. В следующей таблице описаны TP, FP, TN и FN для этой модели. Давайте посчитаем точность, точность и отзывчивость.
TN = 106, FP = 5, FN = 8 и TP = 4.
Точность = [TP + TN] / общая популяция = [4 + 106] / 120 = 0,916.
91,6% Точность невероятная! Эта модель выглядит очень многообещающей.
Точность = TP / [TP + FP] = 4 / [4 + 5] = 0,444.
44,4% Плохая точность. Но точность была так хороша! Что пошло не так? Подождите, пока мы исследуем Recall.
Отзыв = TP / [TP + FN] = 4 / [4 + 8] = 0,333.
33,3% Отзыв - это ужасно!
Но у нас такой потрясающий показатель точности - не можем ли мы просто остановиться на точности и сделать вывод, что наша модель хороша? Означают ли что-нибудь для нас в данном случае «Точность» и «Напоминание»?
Ложные срабатывания (FP) для этой модели определяют, сколько раз человек классифицируется как больной раком, когда он / она здоров в реальной жизни. Это косвенная мера количества непреднамеренных тревог, которые оно вызывает у людей из-за неправильной классификации / прогноза. Низкое значение ложноположительного результата дает гораздо более высокую оценку точности.
С другой стороны, ложноотрицательные (FN) для этой модели определяют, сколько раз человек классифицируется как здоровый, когда он / она является больным раком в реальной жизни. Это серьезная ошибка.
Высокое значение FN может привести к гибели большого числа людей. Поскольку низкое значение FN приводит к гораздо более высокому показателю отзыва, очень важно, чтобы эти показатели нуждались в оценке для конкретных бизнес-потребностей.
В заключение - хотя высокие показатели точности оказывают успокаивающее влияние на нашу интуицию - приводя нас к ложным заявлениям о том, что наша модель машинного обучения работает очень хорошо, мы часто забываем сосредоточиться на таких мелочах, как точность и отзыв, которые иногда имеют наибольшее значение.