Метрики машинного обучения и точности при работе с набором данных о дисбалансе

КЛАССИФИКАЦИЯ ФИНАНСОВЫХ ДАННЫХ О ДИСБАЛАНСЕ

Метрики машинного обучения и точности при работе с набором данных о дисбалансе

Прогнозирование успеха рыночной кампании

Классификация является одним из краеугольных камней контролируемого машинного обучения и используется для поиска знаний в базах данных и интеллектуального анализа данных. В модели классификации алгоритм обучения выявляет основную взаимосвязь между функциями и целевыми переменными и определяет модель, которая наилучшим образом соответствует обучающим данным.

«Распределение дисбаланса классов само по себе не кажется проблемой, но в сочетании с сильно перекрывающимися классами оно может значительно уменьшить количество правильно классифицированных примеров меньшинств (малых)».

Поскольку большинство стандартных алгоритмов обучения рассматривают сбалансированный обучающий набор, это может привести к созданию неоптимальных моделей классификации, то есть хорошего охвата большинства примеров, в то время как меньшинства часто ошибочно классифицируются. Следовательно, те алгоритмы, которые демонстрируют хорошее поведение в рамках стандартной классификации, не обязательно обеспечивают лучшую производительность для несбалансированных наборов данных. Такое поведение объясняется несколькими причинами:

Использование глобальных показателей эффективности для управления процессом обучения, таких как стандартный уровень точности, может дать преимущество большинству классов.
Правила классификации, которые предсказывают положительный класс, часто являются узкоспециализированными, и поэтому их охват очень низок, поэтому от них отказываются в пользу более общих правил, то есть тех, которые предсказывают отрицательный класс.

Здесь мы рассмотрим бизнес-проблему набора данных банка; Банк хочет выявить существующих клиентов с более высокими шансами на оформление срочного депозита; впоследствии фронт-офису будет рекомендовано сосредоточить маркетинговые усилия с учетом важных функций, которые могут превратить маркетинговый звонок в потенциальный бизнес. Цель классификации - предсказать, подпишется ли клиент (да / нет) на срочный депозит (переменная y).

Давайте посмотрим, какие данные доступны в наборах данных Kaggle.

Это данные рыночной кампании. В таблице 20 столбцов, которые предоставляют информацию о каждом клиенте, такую как возраст, семейное положение и уровень образования. Подмножество из них связано с последним контактом в текущей кампании, например, месяц и день недели, когда был установлен последний контакт, а также количество дней с момента последнего контакта с клиентом в предыдущей кампании. В таблице 10 столбцов, которые являются категориальными, что означает, что они содержат текстовые значения, соответствующие определенной категории для данной переменной. В таблице есть один столбец, соответствующий нашему целевому значению. Указывает, подписан ли клиент на срочный депозит-бинарный (да или нет)

Мы могли ясно видеть дисбаланс классов в наборе данных. Это важный вопрос, потому что несбалансированный набор данных может привести к завышенным оценкам производительности. Это, в свою очередь, может привести к ложным выводам о значимости, с которой алгоритм работает лучше, чем случайность.

Здесь мы будем экспериментировать с различными алгоритмами, чтобы выбрать лучший для нашего случая использования, а затем, используя наиболее подходящую модель, наконец, выберем наиболее важную функцию для успешной рыночной кампании.

После проведения обширного исследовательского анализа, окончания метки и т. Д. Мы подготовили чистый набор данных (с = ›(41188, 20)).

Асимметрия - это мера асимметрии распределения вероятностей случайной величины относительно ее среднего значения. Если асимметрия равна 0, данные абсолютно симметричны, хотя для реальных данных это маловероятно.

Как общее практическое правило:

Если асимметрия меньше -1 или больше 1, распределение сильно искажено.
Если асимметрия составляет от -1 до -0,5 или от 0,5 до 1, распределение умеренно искажено.
Если асимметрия составляет от -0,5 до 0,5, распределение приблизительно симметрично.

Мы будем применять различные методы, чтобы проверить, какой из них лучше всего подходит для нашего набора для проверки.

Передискретизация:

Методы повторной выборки можно разделить на три группы или семейства:

Методы недостаточной выборки, которые создают подмножество исходного набора данных путем исключения экземпляров (обычно экземпляров большинства классов).
Методы передискретизации, которые создают подмножество исходного набора данных путем репликации некоторых экземпляров или создания новых экземпляров из существующих.
Гибридные методы, сочетающие оба подхода к выборке сверху.

В рамках повторной выборки простейшими методами предварительной обработки являются неэвристические методы, такие как случайная недостаточная выборка и случайная передискретизация. В первом случае основным недостатком является то, что он может отбросить потенциально полезные данные, которые могут быть важны для процесса обучения. Случайная передискретизация, сканирование увеличивают вероятность возникновения чрезмерной подгонки, поскольку делают точные копии существующих экземпляров.

Здесь мы разделили наблюдения от каждого класса на разные фреймы данных. Используя метод повторной выборки, мы установили количество выборок, совпадающее с числом образцов большинства. Они объединили класс меньшинства с повышенной дискретизацией с исходным фреймом данных класса большинства.

Метод передискретизации:

Перетяжка:

Излишняя подгонка учитывает случайный шум в процессе подгонки, а не сам рисунок. Мы хотим, чтобы наша модель учитывала общую картину данных, чтобы правильно классифицировать, подпишется ли потенциальный клиент на срочный депозит или нет. Лучшая альтернатива, чтобы избежать чрезмерной подгонки, - использовать перекрестную проверку. Мы использовали многократную стратифицированную k-кратную перекрестную проверку с 3 повторениями по 10 раз.

Вышеупомянутый вывод по обучающей выборке.

При выполнении примера отображается среднее значение ROC AUC для дерева решений в наборе данных за три повтора 10-кратной перекрестной проверки (например, среднее значение по 30 различным оценкам модели).

Процесс оценки классификаторов для их сравнения и выбор лучшего из имеющихся в равной степени сложны в реальном бизнес-сценарии.

Оценка Бриера:

Оценка Бриера вычисляет среднеквадратичную ошибку между предсказанными вероятностями и ожидаемыми значениями. Он суммирует величину ошибки в вероятностных прогнозах. Оценка находится в диапазоне от 0,0 до 1,0. Прогнозы, которые дальше от ожидаемой вероятности, наказываются, но менее серьезно, чем в случае потери журнала. В нашем случае это 0,2.

Коэн Каппа:

Каппа предполагает теоретическое максимальное значение +1, когда классификация идеальна. Чем больше значение показателя, тем лучше производительность классификатора. Однако каппа проявляет нежелательное поведение в различных несбалансированных ситуациях, когда худший классификатор становится выше. Споры о непоследовательности поведения Каппы вращаются вокруг удобства или отсутствия использования относительной метрики, что затрудняет интерпретацию ее значений.

Матрица путаницы:

Традиционно степень точности [Точность = {TP + TN} / {TP + FN + FP + TN}] была наиболее часто используемой эмпирической мерой. Однако в рамках несбалансированных наборов данных точность больше не является надлежащей мерой, поскольку она не позволяет различать количество правильно классифицированных примеров различных классов.

Используя матрицу неточностей, можно получить несколько показателей:

Истинно положительный курс: TPrate = TP / {TP + FN}
Истинно отрицательная ставка: TNrate = TN / {TN + FP}
Частота ложных срабатываний: FPrate = FP / {TN + FP}
Ложноотрицательная ставка: FNrate = FN / {TP + FN}
Положительное прогнозное значение: PPvalue = TP / {TP + FP}
Отрицательное прогнозируемое значение: NPvalue = TN / {TN + FN}

F-мера Если рассматривается только эффективность положительного класса, важны две меры:

Истинная положительная скорость (TPrate) и положительное прогнозное значение (PPvalue). При поиске информации истинно положительный показатель определяется как отзыв (R), обозначающий процент извлеченных объектов, которые имеют отношение к делу:

R = TPrate = TP / {T P + F N}

Положительное прогнозируемое значение определяется как точность (P), обозначающая процент соответствующих объектов, которые определены для поиска:

P = PPvalue = TP / {TP + FP}

F-мера (F) предлагается интегрировать эти две меры как среднее

F-мера = 2RP / {R + P}.

Гармоническое среднее двух чисел имеет тенденцию быть ближе к меньшему из двух. Следовательно, высокое значение F-меры гарантирует, что и отзыв, и точность достаточно высоки.

Рабочие характеристики приемника (ROC):

Кривая ROC дает хорошее представление о производительности модели классификации. Площадь под кривой ROC (AUC) является единственным показателем эффективности классификатора для оценки того, какая модель в среднем лучше. Существует явное сходство между AUC и статистикой Вилкоксона.

AUC = {1+ TPrate -FPrate} / 2

Идеальная модель - это та, которая получает 1 TPRate и 0 FPRate. Следовательно, хорошая классификационная модель должна быть расположена как можно ближе к верхнему левому углу диаграммы, а модель, которая делает случайное предположение, должна располагаться вдоль главной диагонали, соединяющей точки (TPrate = 0, FPrate = 0), где каждый экземпляр прогнозируется как отрицательный класс и (TPrate = 1, FPrate = 1), где каждый экземпляр прогнозируется как положительный класс.

График ROC отображает относительные компромиссы между выгодами (истинные положительные результаты) и затратами (ложные положительные результаты) в диапазоне пороговых значений модели классификации.

Графики ROC в контексте несбалансированных наборов данных могут быть обманчивыми в отношении выводов о надежности выполнения классификации из-за интуитивной, но неправильной интерпретации специфичности. Графики PRC, с другой стороны, могут предоставить зрителю точный прогноз будущей эффективности классификации благодаря тому факту, что они оценивают долю истинных положительных результатов среди положительных прогнозов.

Метод недостаточной выборки:

Гибридный метод:

Ансамблевые методы:

Классификаторы на основе ансамблей, также известные как системы с несколькими классификаторами, пытаются улучшить производительность отдельных классификаторов, вызывая несколько классификаторов и комбинируя их, чтобы получить новый классификатор, который превосходит каждый из них. Следовательно, основная идея состоит в том, чтобы построить несколько классификаторов из исходных данных, а затем агрегировать их прогнозы при представлении неизвестных экземпляров. Голосование - один из простейших способов объединения прогнозов из нескольких алгоритмов машинного обучения.

Он работает, сначала создавая две или более автономных моделей из вашего набора обучающих данных. Затем можно использовать классификатор голосования, чтобы обернуть наши модели и усреднить прогнозы подмоделей, когда их попросят сделать прогнозы для новых данных.

Алгоритмы NearMiss:

Основная идея методов NearMiss состоит в том, чтобы выбрать набор кейсов класса большинства, которые близки к кейсам класса меньшинства, чтобы лучше представить границу решения. Эти алгоритмы реализуют некоторые эвристические правила для отбора образцов.

NearMiss-1 выбирает образцы из класса большинства, для которых среднее расстояние до k-ближайших образцов класса меньшинства является наименьшим.
NearMiss-2 отбирает образцы из класса большинства, для которых среднее расстояние до самых дальних образцов отрицательного класса наименьшее.
NearMiss-3 - это двухэтапный алгоритм: во-первых, для каждой выборки меньшинства будут сохранены их m-ближайших соседей; тогда выбирается большинство выборок, для которых среднее расстояние до k-ближайших соседей является наибольшим.

Некоторые экспериментальные оценки показывают, что NearMiss-2 дает хорошие результаты. Теперь мы применим технику NearMiss-2 для получения недостаточной выборки для большинства классов и посмотрим на ее точность и результаты отзыва.

Техника передискретизации синтетического меньшинства (SMOTE):

Основная идея SMOTE - создать новые примеры классов меньшинств путем интерполяции нескольких экземпляров классов меньшинств, которые лежат вместе, для передискретизации обучающего набора. С помощью этой техники положительный класс подвергается избыточной выборке путем взятия каждой выборки класса меньшинства и введения синтетических примеров вдоль отрезков линии, соединяющих любые / все из k ближайших соседей класса меньшинства. В зависимости от количества требуемой передискретизации случайным образом выбираются соседи из k ближайших соседей.

Однако в методах передискретизации, и особенно в алгоритме SMOTE, проблема чрезмерного обобщения в значительной степени связана со способом создания синтетических выборок. Точнее, SMOTE генерирует одинаковое количество выборок синтетических данных для каждого исходного примера меньшинства и делает это без учета соседних примеров, что увеличивает вероятность перекрытия между классами. С этой целью были предложены различные методы адаптивной выборки для преодоления этого ограничения; некоторые репрезентативные работы включают алгоритмы Borderline-SMOTE, Adaptive Synthetic Sampling, Safe-Level-SMOTE и SPIDER2.

Итак, мы наконец видим, что 1 (a), то есть повышенная выборка меньшинства, лучше всего работает на тестовом наборе данных. Давайте посмотрим, какие функции были приоритетными с помощью этого метода.

Это показывает, что продолжительность звонка является наиболее важной характеристикой для успешной бизнес-транзакции для этого набора данных.

У всех применяемых здесь алгоритмов есть свои плюсы и минусы. В зависимости от области бизнеса и конкретного варианта использования можно выбрать правильный алгоритм и соответствующие показатели точности.

Заключение:

После выполнения серии оценок различных методов, чтобы сравнить, какой алгоритм лучше всего работает для данного набора данных, мы обнаружили, что выборка Minority up и RandomForest работали лучше всего. Использовалось стратифицированное k-кратное сведение, которое перемешивает наши данные и после этого разбивает данные на 10 частей. Стратифицированный подход K-Fold возвращает стратифицированные складки, то есть каждый набор, содержащий примерно такое же соотношение целевых меток, что и полные данные. В конце концов, используя наиболее подходящую модель {точность (auc): 96,45% по набору данных проверки}, была определена наиболее важная характеристика для успешной маркетинговой кампании.

Примечание. Описанные здесь программы являются экспериментальными и должны использоваться с осторожностью. Вы используете это на свой страх и риск.

Со мной можно связаться здесь.

Ссылка:

Р. К. Прати и Г. Э. А. П. А. Батиста, Классовый дисбаланс против классового перекрытия: анализ поведения обучающей системы, Proc. Мексиканский Int. Конф. Артиф. Intell. (MICAI), Мехико, Мексика (апрель 2004 г.), стр. 312–321.
Сун, Ю., Вонг, А.К., и Камель, М.С. (2009). Классификация несбалансированных данных: обзор. Международный журнал распознавания образов и искусственного интеллекта, 23 (04), 687–719.
Лопес В., Фернандес А., Гарсия С., Паладе В. и Эррера Ф. (2013). Понимание классификации с несбалансированными данными: эмпирические результаты и текущие тенденции использования внутренних характеристик данных. Информационные науки, 250, 113–141.
Дельгадо Р., Тибау X-A (2019) Почему следует избегать применения Каппы Коэна в качестве показателя эффективности при классификации. PLoS ONE 14 (9)
Сайто Т. и Ремсмайер М. (2015). График точности-отзыва более информативен, чем график ROC при оценке двоичных классификаторов на несбалансированных наборах данных. PloS one, 10 (3).

Метрики машинного обучения и точности при работе с набором данных о дисбалансе

КЛАССИФИКАЦИЯ ФИНАНСОВЫХ ДАННЫХ О ДИСБАЛАНСЕ