MachineX: метрики оценки для моделей классификации

Простыми словами, точность означает, сколько раз наш классификатор предсказал правильный вывод, деленный на общее количество точек данных в нашем наборе.

Матрица путаницы

Хотя точность выглядит неплохо, она не дает нам четкой картины того, обрабатывались ли и как обрабатывались разные классы. В некоторых сценариях нас устраивает общая точность, тогда как в некоторых сценариях стоимость неправильной классификации одной точки данных огромна. Например, в сценарии, когда банк выясняет, имеет ли клиент право на получение кредита, может быть нормально, если мы можем ошибочно классифицировать некоторых подходящих клиентов как неподходящих. Но в случае, если врач классифицирует пациентов как больных раком или нет, было бы ошибкой, если мы объявим некоторых потенциальных больных раком здоровыми.

Следовательно, матрица путаницы появляется там, где мы смотрим на более подробную разбивку различных классов. Итак, давайте попробуем понять матрицу путаницы с минимальной путаницей.

ЛОЖНОПОЛОЖИТЕЛЬНЫЙ: это относится к тому, сколько точек данных наш классификатор предсказал положительным, но на самом деле он был отрицательным.

ЛОЖНООТРИЦАТЕЛЬНЫЙ: это относится к тому, сколько точек данных наш классификатор предсказал отрицательным, тогда как на самом деле они были положительными.

TRUE POSITIVE: это относится к скольким сценариям наш классификатор правильно предсказал положительные классы, т. е. где фактический результат был положительным, и наш классификатор также предсказал положительный

ИСТИННО ОТРИЦАТЕЛЬНЫЙ: это относится к скольким сценариям наш классификатор правильно предсказал отрицательные классы, т.е. где фактический результат был отрицательным, и наш классификатор также предсказал отрицательный

Как только эта матрица путаницы построена, мы теперь можем увидеть гораздо более широкое представление о точности каждого класса. Предположим, наш тестовый набор данных содержит 100 точек положительного класса и 200 точек отрицательного класса. Глядя на матрицу путаницы ниже, мы видим что-то вроде:

Положительный класс имеет гораздо более низкую точность, которая составляет 80/(20+80) = 80%, чем отрицательный класс, который составляет 195/(195+5) = 97,5%. Эта конкретная информация была бы потеряна, если бы мы просто посмотрели на общую точность модели, которая составляет (80+195)/(100+200) = 91,7%.

Журнал потерь

Эта мера также известна как Cross-Entropy Loss и позволяет получить гораздо более тонкие детали классификатора. В частности, если необработанный вывод классификатора представляет собой числовую вероятность вместо метки класса 0 или 1, то можно использовать логарифмическую потерю. Следовательно, если расхождение между двумя вероятностями, то есть прогнозируемой и фактической, велико, то у нас большие логарифмические потери, следовательно, в противном случае. Проще говоря, скажем, если фактическая метка равна 1, а наш классификатор предсказывает 0, но с вероятностью, скажем, 0,58%, это будет означать, что наш классификатор почти не попадает. В математических терминах логарифмическая потеря называется:

Поэтому потеря журнала наказывает за оба типа ошибок, но особенно за те прогнозы, которые являются уверенными и неправильными. Меньшие значения логарифмических потерь означают более высокую точность.

Область под кривой

Это один из наиболее важных показателей оценки для проверки производительности любой модели классификации. Это график частоты ложноположительных результатов (ось x) по сравнению с частотой истинных положительных результатов (ось y) для ряда различных возможных пороговых значений от 0,0 до 1,0. Другими словами, он отображает частоту ложных срабатываний в зависимости от частоты попаданий.

Кривая ROC показывает чувствительность классификатора путем построения графика отношения истинных положительных результатов к уровню ложных срабатываний. Другими словами, он показывает вам, сколько правильных положительных классификаций можно получить, если вы допускаете все больше и больше ложных срабатываний. Идеальный классификатор, который не делает ошибок, сразу же достигает 100% истинного положительного результата без каких-либо ложных срабатываний — на практике это почти никогда не происходит. Это особенно полезно для сравнения различных пороговых значений различных моделей. Его также можно использовать в качестве сводки навыков модели. Вы также можете посмотреть учебник Кевина Маркхэма для большего понимания.

Отзывать

Напомним, какую долю всех положительных экземпляров классификатор правильно предсказал/идентифицировал положительно. Проще говоря, процент положительных классов, правильно предсказанный классификатором. Например, если отзыв равен 0,95, то мы можем сказать, что из 100 положительных случаев наш классификатор правильно предсказал 95 из них. Он также известен под названиями TPR или Sensitivity. Вспомнить очень полезно в медицинской диагностике опухолей и рака. Формула для нахождения отзыва:

Точность

Всякий раз, когда классификатор предсказывает положительный класс, мы хотим, чтобы он был уверенным. Таким образом, точность отвечает на простой вопрос: Сколько из элементов, которые ранжировщик/классификатор определил как релевантные, действительно релевантны? Он используется там, где мы должны свести к минимуму ложные срабатывания. Точность используется при ранжировании в поисковых системах, классификации документов и решении многих задач, стоящих перед клиентами. Формула для определения точности:

Дайте мне знать ваши мысли в комментариях.