В машинном обучении иногда, когда мы решаем задачи классификации, мы видим, что один класс имеет точность 95% (класс 1), тогда как другой класс имеет точность всего 7,5% (класс 0). Что ж, можно подумать, почему такая диспропорция точности возникает в нашем проекте? Чтобы понять причину этой несоразмерности, нам нужно сначала понять следующие моменты.

  1. Что такое несбалансированный набор данных?
  2. В чем разница между несбалансированной и несбалансированной классификацией (набором данных)?
  3. Почему несбалансированный набор данных является проблемой?

Что такое несбалансированный набор данных?

Несбалансированный набор данных можно определить как «проблему прогнозного моделирования классификации, в которой распределение примеров по классам неодинаково». т. е. распределение классов не является равным или близким к равному, а вместо этого является смещенным или асимметричным. Что ж, чтобы было легче понять, давайте возьмем пример.

Это набор данных для визы H1-B. В этом наборе данных сертифицированные статусы случаев составляют около 2,8 миллиона, т. е. 96,2%, тогда как отклоненные случаи составляют 94364, т. е. 3,2% набора данных. Этот тип неравномерного распределения данных называется несбалансированным.

Эта проблема преобладает в сценариях, где обнаружение аномалий имеет решающее значение, например:

  • Выявление редких заболеваний, таких как рак; опухоли и др.,
  • Мошеннические операции в банках
  • Определите скорость оттока клиентов (то есть, какая часть клиентов продолжает пользоваться услугой)
  • спам-письма и т. д.

Разница между несбалансированной классификацией и несбалансированной классификацией

  • Несбалансированность относится к распределению классов, которое было сбалансированным, а теперь уже не сбалансированным.
  • Несбалансированное относится к распределению классов, которое по своей сути несбалансировано.

Почему несбалансированный набор данных является проблемой?

В ситуациях, когда у нас есть несбалансированный набор данных, прогностические модели, разработанные с использованием обычных моделей машинного обучения, могут быть предвзятыми, неточными и иметь тенденцию давать неудовлетворительные классификаторы.

Стандартные алгоритмы классификатора, такие как дерево решений и логистическая регрессия, имеют уклон в сторону классов, которые имеют несколько экземпляров. Они имеют тенденцию только предсказывать большинство данных класса. Особенности класса меньшинства рассматриваются как шум и часто игнорируются. Таким образом, существует высокая вероятность неправильной классификации класса меньшинства по сравнению с классом большинства.

Это происходит потому, что алгоритмы машинного обучения обычно предназначены для повышения точности за счет уменьшения ошибок. Таким образом, они не принимают во внимание распределение/долю классов или баланс классов.

В большинстве дел или любых бизнес-проблем наш основной фокусный класс — это класс меньшинства. Мы хотим, чтобы модель фокусировалась на классе меньшинства, но в то же время не игнорировала класс большинства.

Как исправить дисбаланс наборов данных?

Методы, которые можно использовать для исправления дисбаланса набора данных:

1. Повторная выборка набора данных:-

В этой стратегии мы фокусируемся на балансировке классов в обучающих данных (предварительной обработке данных), прежде чем предоставлять данные в качестве входных данных для алгоритма машинного обучения.

Основная цель уравновешивания классов состоит в том, чтобы либо увеличить частоту класса меньшинства, либо уменьшить частоту класса большинства. Это делается для получения примерно одинакового количества экземпляров для обоих классов. Два подхода к созданию сбалансированного набора данных из несбалансированного — это недостаточная выборка и избыточная выборка.

1.1. Неполная выборка

Недостаточная выборка уравновешивает набор данных за счет уменьшения размера обильного класса. Этот метод используется, когда количество данных достаточно. Сохраняя все образцы в редком классе и случайным образом выбирая равное количество образцов в богатом классе, можно получить сбалансированный новый набор данных для дальнейшего моделирования.

1.2. Излишняя выборка

Наоборот, передискретизация используется, когда количество данных недостаточно. Он пытается сбалансировать набор данных, увеличивая размер редких выборок. Вместо того, чтобы избавляться от обильных образцов, новые редкие образцы генерируются с использованием, например, повторение, начальная загрузка или SMOTE (метод избыточной выборки синтетического меньшинства).

Обратите внимание, что нет абсолютного преимущества одного метода передискретизации над другим. Применение этих двух методов зависит от варианта использования, к которому они применяются, и от самого набора данных. Комбинация избыточной и недостаточной выборки также часто бывает успешной.

2. Использование перекрестной проверки K-Fold:-

Следует отметить, что перекрестная проверка должна применяться должным образом при использовании метода избыточной выборки для решения проблем дисбаланса.

Имейте в виду, что избыточная выборка берет наблюдаемые редкие выборки и применяется к начальной загрузке для создания новых случайных данных на основе функции распределения. Если перекрестная проверка применяется после избыточной выборки, в основном то, что мы делаем, — это подгонка нашей модели к конкретному результату искусственной начальной загрузки. Вот почему перекрестная проверка всегда должна выполняться перед избыточной выборкой данных, точно так же, как должен быть реализован выбор признаков. Только путем многократной повторной выборки данных в набор данных можно внести случайность, чтобы убедиться, что не возникнет проблемы переобучения.

3. Кластеризация класса большинства: -

Вместо того, чтобы полагаться на случайные выборки для охвата разнообразия обучающих выборок, группируйте обильный класс в r групп, где r — количество случаев в r. Для каждой группы сохраняется только медоид (центр кластера). Затем модель обучается только с редким классом и медоидами.

Вывод

Теперь мы, наконец, поняли значение несбалансированных данных. Разница между несбалансированным набором данных и несбалансированным набором данных. Проблемы, возникающие из-за несбалансированных данных, и как преодолеть или исправить этот тип данных. Если у вас есть какие-либо вопросы или предложения, связанные с этой статьей, пожалуйста, свяжитесь со мной по электронной почте. Счастливого обучения!