Недостаточная выборка относится к группе методов, предназначенных для балансировки распределения классов для набора данных классификации с асимметричным распределением классов.

Несбалансированное распределение классов будет иметь один или несколько классов с небольшим количеством примеров (классы меньшинства) и один или несколько классов с большим количеством примеров (большинство). Это лучше всего понять в контексте задачи бинарной (двухклассовой) классификации, где класс 0 — это класс большинства, а класс 1 — класс меньшинства. Узнать больше о несбалансированных данных.

Методы недостаточной выборки удаляют из обучающего набора данных примеры, принадлежащие к большинству классов, чтобы лучше сбалансировать распределение классов, например уменьшить перекос с 1:100 до 1:10, 1:2 или даже распределения классов 1:1. Это отличается от передискретизации, которая включает добавление примеров в класс меньшинства, чтобы уменьшить перекос в распределении классов. В этой статье мы обсудим различные методы субдискретизации.

  1. Методы выбора примеров для сохранения
  • Почти мисс Недостаточная выборка

2. Методы выбора примеров для удаления

  • Ссылки Tomek для недостаточной выборки

3. Комбинации методов сохранения и удаления

  • Односторонний отбор для недостаточной выборки

Методы выбора примеров для сохранения

В этом разделе мы более подробно рассмотрим два метода, которые выбирают, какие примеры из большинства классов следует сохранить, — семейство методов почти промаха.

Почти мисс Недостаточная выборка

Почти промах относится к набору методов недостаточной выборки, которые выбирают примеры на основе расстояния от примеров класса большинства до примеров класса меньшинства.

Подходы были предложены Цзяньпингом Чжаном и Индерджитом Мани в их статье 2003 года под названием Подход KNN к несбалансированному распределению данных: пример, связанный с извлечением информации.

Существует три версии этой техники: NearMiss-1, NearMiss-2 и NearMiss-3. Здесь расстояние определяется в пространстве признаков с использованием евклидова расстояния или аналогичного.

  • NearMiss-1: примеры класса большинства с минимальным средним расстоянием до трех ближайших примеров класса меньшинства.
  • NearMiss-2: примеры класса большинства с минимальным средним расстоянием до трех самых дальних примеров класса меньшинства.
  • NearMiss-3: примеры класса большинства с минимальным расстоянием до каждого примера класса меньшинства.

Код для NearMiss-1 с imblearn приведен ниже для справки.

При выполнении примера занижается выборка класса большинства и создается точечная диаграмма преобразованного набора данных.

Мы видим, что, как и ожидалось, были сохранены только те примеры в классе большинства, которые наиболее близки к примерам класса меньшинства в перекрывающейся области.

Теперь аналогичным образом мы можем выполнить почти промах 2 и 3, изменив версию.

Методы, которые выбирают примеры для удаления

В этом разделе более подробно рассматриваются методы, которые выбирают примеры из большинства классов для удаления, а именно. популярный метод Tomek Links.

Ссылки Tomek для недостаточной выборки

Ссылки Tomek являются одной из модификаций метода субдискретизации Condensed Nearest Neighbours (CNN, не путать со сверточной нейронной сетью), разработанного Tomek (1976). В отличие от метода CNN, который только случайным образом выбирает выборки с k ближайшими соседями из мажоритарного класса, который необходимо удалить, метод связей Томека использует правило для выбора пары наблюдений (скажем, a и b), которые удовлетворяют этим свойствам:

  1. Ближайшим соседом наблюдения a является b.
  2. Ближайшим соседом наблюдения b является a.
  3. Наблюдения a и b относятся к другому классу. То есть a и b принадлежат к классу меньшинства и большинства (или наоборот) соответственно.

Код для Tomek Links с imblearn приведен ниже.

Счетчик({0: 9900, 1: 100})
Счетчик({0: 9874, 1: 100})

Диаграмма рассеяния преобразованного набора данных не делает очевидным незначительное редактирование основного класса.

Это подчеркивает, что, хотя поиск неоднозначных примеров на границе класса полезен сам по себе, это не лучший метод недостаточной выборки. На практике процедура Tomek Links часто комбинируется с другими методами, такими как правило сокращенного ближайшего соседа.

Комбинации методов Keep и Delete

В этом разделе более подробно рассматриваются методы, которые сочетают в себе уже рассмотренные методы сохранения и удаления примеров из мажоритарного класса, такие как односторонний выбор и правило очистки соседства.

Односторонний отбор для недостаточной выборки

Односторонний выбор, или сокращенно OSS, представляет собой метод недостаточной выборки, который сочетает в себе ссылки Tomek и правило сокращенного ближайшего соседа (CNN).

В частности, ссылки Tomek представляют собой неоднозначные точки на границе класса, идентифицируются и удаляются в большинстве классов. Затем метод CNN используется для удаления избыточных примеров из класса большинства, который находится далеко от границы решения.

Мы можем реализовать стратегию недостаточной выборки OSS через класс несбалансированного обучения OneSidedSelection.

Количество начальных примеров может быть установлено с помощью n_seeds_S и по умолчанию равно 1, а k для KNN может быть установлено с помощью аргумента n_neighbors и по умолчанию равно 1.

Учитывая, что процедура CNN выполняется в одном блоке, полезнее иметь большую исходную выборку мажоритарного класса, чтобы эффективно удалить избыточные примеры. В этом случае мы будем использовать значение 200.

Соотношение для этого набора данных теперь составляет около 1:10, по сравнению с 1:100.

Счетчик({0: 9900, 1: 100})
Счетчик({0: 940, 1: 100})

Создается точечная диаграмма преобразованного набора данных, показывающая, что большинство оставшихся примеров класса большинства находятся вокруг границы класса и перекрываются примеры из класса меньшинства.

ПЛЮСЫ

  • Это может помочь улучшить время выполнения и проблемы с хранением за счет уменьшения количества выборок обучающих данных, когда набор обучающих данных огромен.

МИНУСЫ

  • Он может отбросить потенциально полезную информацию, которая может быть важна для построения классификаторов правил.
  • Выборка, выбранная путем случайной недостаточной выборки, может быть необъективной. И это не будет точным представлением населения. Это приводит к неточным результатам с фактическим набором тестовых данных.