Чтобы оценить способность моделей к обобщению, нам
нужны не только практические и эффективные методы оценки, но
также некоторые показатели производительности, которые могут количественно оценить способность к обобщению.

Примером часто используемых показателей эффективности является матрица путаницы. Матрицы путаницы обычно используются как для двоичных, так и для многоклассовых задач классификации. Они хорошо показывают, существует ли значительное перекрытие свойств классов, которое может привести к путанице в модели и ошибкам прогнозирования.

Предположим, что мы обучили классификатор прогнозировать результат задачи бинарной классификации относительно того, имеет ли тестовое изображение рак (положительный результат) или нормальное в противном случае (отрицательный результат). Выходные данные классификатора могут быть положительными или отрицательными, а сделанный прогноз может быть правильным или неправильным. Мы можем суммировать эту информацию в двумерной матрице: фактические классификации показаны в виде столбцов, а прогнозируемые классификации — в виде строк.

Матрицы неточностей отражают производительность модели с нескольких точек зрения. Он предоставляет информацию о различных показателях, таких как истинные положительные результаты (TP), истинные отрицательные результаты (TN), ложные положительные результаты (FP), ложные отрицательные результаты (FN), точность, отзыв и точность классификации.

Ячейка TP указывает количество случаев, когда сделанные прогнозы были положительными и предсказаны правильно, ячейка TN указывает количество случаев, когда сделанные прогнозы были отрицательными и также были предсказаны правильно, ячейка FP указывает случаи, когда сделанные прогнозы были предсказаны неправильно. как положительный, а ячейка FN указывает на случаи, которые были ошибочно предсказаны как отрицательные. Из матрицы путаницы мы можем вычислить следующие показатели производительности:

Точность

Tэто просто доля правильных прогнозов, сделанных моделью:

Точность является хорошим показателем только тогда, когда классы в наборе данных почти сбалансированы и имеют равные затраты на неправильную классификацию. В целом точность представляет собой смещенную оценку в сторону класса большинства.

Точность

Точность измеряет соотношение истинно положительных прогнозов и всех положительных прогнозов:

Отзывать

Напоминаемость или чувствительность измеряет соотношение истинно положительных прогнозов и фактически положительных случаев (TP + FN):

Обратите внимание: если ложноположительных результатов было 0, то точность будет 100%, а если ложноотрицательных результатов было 0, то отзыв = 100.

Специфика

Специфичность противоположна отзыву и измеряет соотношение истинно отрицательных результатов и всех отрицательных случаев:

Оценка F1

Оценка F1 объединяет точность (P) и полноту (R) в единый показатель с использованием среднего гармонического значения:

Показатель F1 можно использовать как для задач бинарной, так и для многоклассовой классификации. Это нормализованный показатель от 0 до 1, где высокий балл F1 указывает на хорошую модель, имеющую как высокую полноту, так и точность. Благодаря гармоническому среднему балл F1 полезен для выявления случаев, когда P или R малы (например, P = 3%, R = 97% или P = 97%, R = 3%). Это связано с тем, что среднее гармоническое больше смещено в сторону меньшего числа, поэтому показатель F1 всегда будет небольшим, если P или R малы, что указывает на плохую модель.

После завершения разработки модели можно использовать показатели производительности для подведения итогов производительности модели.