Углубленный анализ на уровне данных, уровне алгоритма и гибридных подходах для решения проблем несбалансированной классификации.

Проблемы несбалансированной классификации и парадокс точности

Любой, кто знаком с машинным обучением, наверняка сталкивался с проблемой несбалансированной классификации. По определению несбалансированная классификация возникает, когда один или несколько классов имеют очень низкие доли в обучающих данных по сравнению с другими классами. Когда распределение примера сильно неравномерно (≥ 1:100), возникает серьезный дисбаланс.

Если вдаваться в подробности, то в проблемах несбалансированной классификации есть два основных аспекта: интерес меньшинства и редкие случаи. Доля меньшинства относится к тому факту, что наиболее интересными являются редкие экземпляры: в таких проблемах, как обнаружение мошенничества или предотвращение оттока клиентов, необходимо решать класс меньшинства. С другой стороны, редкость относится к тому факту, что данные, принадлежащие к определенному классу, представлены в более низких пропорциях по сравнению с другими классами. Большинство проблем с несбалансированной классификацией возникает из-за комбинации этих двух факторов, таких как прогнозирование редких заболеваний. В таких определенных ситуациях большинство распространенных алгоритмов машинного обучения терпят неудачу, поскольку они предназначены для повышения точности. В задачах несбалансированной классификации модели могут иметь высокую точность, но плохо работать с классом меньшинства. Итак, как мы можем справиться с этим вызовом?

В таких определенных ситуациях большинство распространенных алгоритмов машинного обучения терпят неудачу, поскольку они предназначены для повышения точности. В задачах с несбалансированной классификацией модели могут иметь высокую точность, но плохо работать с классом меньшинства. Итак, как мы можем справиться с этим вызовом? Существует несколько подходов, которые можно разделить на 3 категории:

  • методы на уровне данных:
    - методы избыточной выборки
    - методы недостаточной выборки
  • агоритм - уровневые методы
  • гибридные методы.

Выбор правильного подхода имеет решающее значение, неправильный выбор может привести к потере информации или к переоснащению.

В этой статье мы сосредоточимся на различных подходах, чтобы избежать этих рисков. Во-первых, мы представим SMOTE и его расширения, методы, направленные на повторную выборку набора данных; затем мы дадим краткий обзор двух семейств алгоритмов, подходящих для несбалансированных наборов данных, и, наконец, представим возможные гибридные подходы, объединяющие предыдущие.

1. Методы уровня данных

Подходы на уровне данных направлены на перебалансировку обучающего набора данных перед применением алгоритмов машинного обучения. Это можно сделать двумя разными способами:

  • Передискретизация: создание новых экземпляров миноритарного класса
  • Недостаточная выборка: удаление экземпляров мажоритарного класса

Два подхода поясняются на рисунке 1.

Существует несколько методов на уровне данных, начиная от случайной передискретизации/недостаточной выборки и заканчивая более сложными подходами. В следующих параграфах мы сосредоточимся на SMOTE и его расширениях.

1.1 УДАР

SMOTE (Synthetic Minority Oversampling Technique) – это метод передискретизации, впервые представленный в 2002 году (Нитеш В. Чавла, 2002 г.) и основанный на идее создания новых выборок меньшинства путем линейной комбинации.

Давайте рассмотрим этот подход в деталях:

  • Экземпляр класса меньшинства 𝑥ᵢ выбран в качестве корневого образца для новых синтетических образцов.
  • Получены 𝐾 ближайшие соседи 𝑥ᵢ
  • 𝑛 из 𝐾 экземпляров выбираются случайным образом для вычисления новых экземпляров путем интерполяции
  • Учитывается разница между 𝑥𝑖 и выбранными соседями
  • 𝑛 синтезированные образцы генерируются по следующей формуле:

где 𝑔𝑎𝑝(𝑗) — равномерно распределенная случайная величина из (0,1) для j-го признака, а 𝑛 — количество передискретизации.

Как видно из графиков, после применения SMOTE два класса более сбалансированы, а новые сгенерированные образцы близки к исходным из миноритарного класса.

1.2 Расширения SMOTE

На первый взгляд, ориентируясь на первый сюжет, можно выделить разные области.

  • Область, обведенная зеленым кружком, в которой большинство экземпляров принадлежит классу меньшинства.
  • область, обведенная желтым кругом, где мы можем найти почти в равных пропорциях экземпляры большинства и класса меньшинства
  • и область, обведенная красным, где большинство точек принадлежит классу большинства.

Вторую определяем как пограничную область. Экземпляры, расположенные в этой области, являются наиболее сложными для прогнозирования. Поэтому были разработаны некоторые расширения SMOTE, основанные на идее выбора целевых образцов перед созданием новых.

1.2.1 Пограничный SMOTE

Borderline SMOTE — одно из таких расширений, которое фокусируется на «опасной» области. Подход следующий:

  • Экземпляр класса меньшинства 𝑥ᵢ выбран в качестве корневого образца для новых синтетических образцов.
  • Получены 𝑚 ближайшие соседи 𝑥ᵢ
  • Вычисляется количество мажоритарных выборок (𝑚′ ) среди ближайших соседей 𝑥ᵢ
    - Если 𝑚′ = 𝑚 → выборка рассматривается как ШУМ
    -
    Если 𝑚/2 ≤ 𝑚′‹𝑚 . Это означает, что количество мажоритарных соседей больше, чем выборок меньшинства → выборка считается ОПАСНОЙ
    -
    Если 0 ≤ 𝑚′‹𝑚/2, количество соседей большинства меньше, чем количество образцов меньшинства → образец считается БЕЗОПАСНЫМ.

Пусть 𝑝𝑛𝑢𝑚 будет количеством экземпляров меньшинства, а 𝑑𝑛𝑢𝑚 будет количеством экземпляров, находящихся в опасности:

  • Для каждого образца в опасности:

- Экземпляр миноритарного класса 𝑝ᵢ′ выбирается в качестве корневого образца для новых синтетических образцов
- Получаются 𝑝ᵢ′ 𝑘 ближайших соседей
- 𝑠 ∗ 𝑑𝑛𝑢𝑚 из 𝑘 экземпляров выбираются случайным образом для вычисления новых экземпляров by interpolation
- Учитывается разница между 𝑥ᵢ и выбранными соседями
- 𝑠 ∗ 𝑑𝑛𝑢𝑚 синтезированные образцы генерируются по следующей формуле:

Где 𝑑𝑖𝑓ⱼ — разница между 𝑝ᵢ′ и его j ближайшим соседом, 𝑟ⱼ — равномерно распределенная случайная величина из (0,1), 𝑠 — количество передискретизации, а 𝑘 — количество ближайших соседей. Результат пограничного SMOTE показан на следующих графиках:

Подобно SMOTE, метод генерации новых выборок представляет собой линейную комбинацию (метод избыточной выборки). Но, в отличие от предыдущего подхода, новые выборки генерируются почти только вдоль граничной области. Таким образом, в наиболее критической области генерируется больше выборок, игнорируя области, определенные как «безопасные» или «шумовые».

1.2.2 Адасин

Однако в некоторых случаях область шума должна быть отмечена и рассмотрена. Подход Адасин (Хайбо Хе) фокусируется на этой проблеме. Идея этого подхода состоит в том, чтобы генерировать больше выборок меньшинства (избыточная выборка) в областях, где их плотность ниже. Процедура следующая:

Пусть 𝑚ₛ будет количеством примеров класса меньшинства, 𝑚ₗ будет количеством примеров класса большинства, 𝑑ₜₕ будет порогом для максимально допустимой степени дисбаланса класса, а 𝛽 параметром, используемым для указания желаемого баланса.

Рассчитайте степень дисбаланса классов 𝑑 = 𝑚ₛ ⁄ 𝑚ₗ

  • if 𝑑‹𝑑ₜₕ
    — Подсчитать количество примеров синтетических данных, которые необходимо сгенерировать 𝐺 = (𝑚ₗ — 𝑚ₛ) x 𝛽
    — Для каждого примера 𝑥𝑖 в классе меньшинства найти 𝐾 ближайших соседей и вычислить 𝑟ᵢ = ∆ᵢ ⁄𝐾 , 𝑖 = 1, . ., 𝑚ₛ, где ∆ᵢ — количество примеров в K ближайших соседей, принадлежащих мажоритарному классу
    — нормализовать 𝑟ᵢ s.t. с.т. 𝑟̂ᵢ = 𝑟ᵢ /∑ 𝑟𝑖 =1, ст. 𝑟̂ᵢ – это распределение плотности
     — расчет количества примеров синтетических данных, которые необходимо сгенерировать 𝑔ᵢ= 𝑟̂ᵢ × 𝐺

Для каждого примера данных класса меньшинств сгенерируйте 𝑔𝑖 синтетических образцов:

В соответствии с этим подходом наибольшее внимание уделяется примерам с большим перекрытием классов. Следовательно, в задачах, где эти примеры с низкой плотностью могут быть выбросами, подход ADASYN может уделять слишком много внимания этим областям пространства признаков, что может привести к ухудшению модели. производительность. Это может помочь удалить выбросы до применения процедуры передискретизации, и это может быть полезной эвристикой для более общего использования.

Наконец, интересная интеграция с методами недостаточной выборки может еще больше улучшить перебалансировку набора данных.

1.2.3 Интеграция с Tomek Link

Ссылка Томека (Luo Ruisen) представляет собой интересную технику выборки, позволяющую избежать потери информации. Подход заключается в следующем:

  • Для двух экземпляров 𝑥ᵢ , 𝑥ⱼ
    - Если для любого 𝑥ₖ ∈ 𝑋 {𝑥ᵢ , 𝑥ⱼ }

𝑥ᵢ , 𝑥ⱼ называются ссылками Томека.
- Если 𝑥ᵢ , 𝑥ⱼ принадлежат разным классам → удаляется тот, который принадлежит большинству классов.

Поэтому экземпляры, принадлежащие к классу большинства, которые близки к экземплярам, ​​принадлежащим к классу меньшинства (и могут быть неверно истолкованы), удаляются.

Интеграция этого метода недостаточной выборки с SMOTE может быть полезна при перебалансировке набора данных, поскольку шум уменьшается и создаются новые выборки.

2. Алгоритмические подходы

После повторной выборки данных крайне важно применить правильный алгоритм в соответствии с новым распределением и целью проекта. Наиболее эффективными типами алгоритмов несбалансированной классификации являются ансамблевыеметоды. Идея, стоящая за ними, заключается в обучении нескольких моделей (слабых учеников) и объединении их результатов для получения прогнозов. Алгоритмы ансамбля повышают стабильность и точность обычных алгоритмов машинного обучения.

Алгоритмы ансамбля можно разделить на две категории: методы бэггинга и бустинга.

Состояния пакетирования для агрегирования Bootstrap. В этом методе различные обучающие наборы данных генерируются путем случайной выборки с заменой из исходного набора данных, поэтому некоторые наблюдения могут повторяться в разных наборах данных. Эти новые наборы используются для обучения одного и того же алгоритма обучения, и создаются разные классификаторы. Разные учащиеся обучаются независимо и параллельно. Затем прогнозы получаются путем усреднения результатов всех обучающихся.

Точно так же при усилении различные обучающие наборы данных генерируются путем случайной выборки с заменой, но, в отличие от мешков, каждый классификатор учитывает успех предыдущих классификаторов: неправильно классифицированные выборки получают более высокий вес, поэтому разные модели обучаются последовательно и адаптивно. Кроме того, в методах бустинга окончательное голосование получается с учетом средневзвешенного значения оценок.

Оба метода хороши для уменьшения дисперсии и повышения стабильности, но, хотя бустинг в основном направлен на уменьшение систематической ошибки, бэггинг уменьшает дисперсию, поэтому он может решить проблему переобучения. В таблице ниже представлены сильные и слабые стороны обоих подходов.

3. Гибридные подходы

При наличии серьезного дисбаланса рекомендуется применять гибридные методы, сочетающие подходы на уровне данных и на уровне алгоритмов, чтобы максимально использовать потенциал обоих методов. Следующие рисунки иллюстрируют два возможных гибридных подхода.

На рис. 7 для повторной балансировки набора данных применяются два подхода на уровне данных: Borderline SMOTE и ссылка Tomek для недостаточной выборки. Затем применяется XGBoost и получаются баллы. На рисунке 8 разные модели обучаются параллельно на разных наборах данных. Они получаются путем выбора всех экземпляров, принадлежащих классу меньшинства, и подмножества экземпляров класса большинства. Таким образом снижается степень дисбаланса. После этого применяется ссылка Tomek для дальнейшей балансировки набора данных, удаления вводящих в заблуждение выборок, и, наконец, алгоритм XGBoost обучается на каждом подмножестве. Оценка вероятности получается путем усреднения результатов различных алгоритмов.

Заключение

Итак, какой метод выборки применим? Какой алгоритм выбрать? В этой статье мы представили разные возможности, однако единого правильного ответа на эти вопросы нет. Это зависит от самой проблемы и от серьезности дисбаланса. Предлагается провести тщательный предварительный и исследовательский анализ, проверив распределение данных, наличие выбросов и углубив их значение. После ограничения панели возможных подходов по этим элементам можно протестировать и сравнить их, чтобы найти наиболее подходящий для задачи.

Рекомендации

Haibo He, YB (nd). ADASYN: Адаптивный синтетический подход к выборке для несбалансированных. Конференция: Нейронные сети, 2008 г. IJCNN 2008 г. (Всемирный конгресс IEEE по вычислительному интеллекту).

Луо Руизен, DS (nd). Пакетирование классификаторов Xgboost со случайной недостаточной выборкой и связью Tomek для зашумленных данных с несбалансированными метками. Серия конференций IOP: Материаловедение и инженерия. Чэнду, Китай.

Нитеш В. Чавла, KW (2002). SMOTE: Техника передискретизации синтетического меньшинства. Журнал исследований искусственного интеллекта 16, 321–357.