При работе с сильно несбалансированными наборами данных коэффициент Джини перестает быть надежным показателем для оценки эффективности модели классификации.

Чтобы проиллюстрировать, почему, мы продолжим использовать набор данных о раке молочной железы scikit-learn, который мы использовали в предыдущей статье: Метрики оценки для серии моделей классификации — Часть 1.

Мы начнем с импорта набора данных и создадим его сильно несбалансированную версию:

Далее мы приступим к обучению модели с этим крайне несбалансированным набором данных и оценим результаты ее прогнозов.

Наша модель предсказывает, что 10% наблюдений будут положительными, а на самом деле положительных наблюдений 17%. Модель предсказывает, что большинство наблюдений будут отрицательными.

Теперь, в предыдущей статье, мы говорили о необходимости определить массив пороговых отсечений, чтобы создать ROC-кривую. Поскольку наша модель возвращает вероятность того, что наблюдение будет положительным, мы определим ряд пороговых значений (0,3, 0,4, 0,5, 0,6, 0,7, 0,8 и т. д.), при которых вероятность будет считаться положительным событием (например, , каждое наблюдение с вероятностью выше 0,3 будем считать положительным). С результатами этих множественных компромиссов мы приступаем к построению того, что мы знаем как кривую ROC.

К счастью, в scikit-learn есть функция, которая рассчитает для нас площадь под ROC-кривой, и нам не придется рассматривать сложную математику в этой статье. Однако нам нужно видеть результаты нашей модели как вероятности, а не как абсолютные значения (0,3, 0,4, 0,5, 0,6, 0,7, 0,8 вместо 1 или 0), чтобы мы могли вычислить площадь под ROC. изгиб. Итак, мы продолжим создавать прогнозы вероятностной модели и сохранять их в нашей оценочной таблице.

Полученный нами коэффициент Джини равен 0,73, что может ввести в заблуждение. Оптимальное значение коэффициента Джини считается высоким или низким в зависимости от того, как оно сравнивается с другими аналогичными моделями в той же отрасли, которые пытаются решить аналогичные проблемы. Однако в общих чертах коэффициент Джини 0,73, вероятно, будет считаться приемлемым, поскольку он кажется высоким показателем. Тем не менее, давайте помнить, что мы знаем, что стоит за этим числом. Из-за сильно несбалансированного характера набора данных наша модель достигла этого балла, правильно классифицировав большинство фактических отрицательных наблюдений, в то время как правильно классифицировала только около половины положительных. В зависимости от характера проблемы, которую вы пытаетесь решить, это может быть приемлемо. Однако, если для вас особенно важно правильно классифицировать положительные наблюдения. Доверите ли вы этой модели хорошую работу по классификации наблюдений? Я бы так не думал.

Деловое фото создано d3images — www.freepik.com