Проблема несбалансированного набора данных и некоторые методы решения этой проблемы

Обычные методы оценки модели не позволяют точно измерить производительность модели при наличии несбалансированных наборов данных. Дисбаланс между положительными и отрицательными результатами, так называемый дисбаланс классов, является проблемой, обычно обнаруживаемой в медицинских данных. Несмотря на различные исследования, классовый дисбаланс всегда был сложной проблемой.

Предположим, что отрицательный класс равен 0, а положительный класс равен 1.

Общая производительность любой модели, обученной на таких данных, будет ограничена ее способностью предсказывать редкие точки. Поскольку класс большинства будет приобретать большее значение во время изучения алгоритма, класс меньшинства будет игнорироваться. Поэтому очень важно решить эту проблему перед запуском любого алгоритма на таком наборе данных.

Один из подходов к решению проблемы дисбаланса классов заключается в произвольной произвольной повторной выборке набора обучающих данных. Два основных подхода к случайной повторной выборке несбалансированного набора данных:

›удалить примеры из мажоритарного класса, называемого Случайное недостаточное демпфирование
-›для дублирования примеров из класса меньшинства, называемого Случайная передискретизация.

когда у нас гораздо больше отрицательного класса, чем положительного, мы можем сделать передискретизацию. Но у этого есть два недостатка.

В нем будут повторяющиеся данные.
Это приведет к переоснащению.

Одним из эффективных способов передискретизации является SMOTE (метод передискретизации синтетического меньшинства).

SMOTE работает, выбирая примеры, близкие в пространстве признаков, рисуя линию между примерами в пространстве признаков и рисуя новый образец в точке вдоль этой линии. SMOTE использует ближайших соседей миноритарного класса для создания синтетических данных.

Работа с несбалансированными наборами данных влечет за собой такие стратегии, как улучшение алгоритмов классификации или балансировка классов в обучающих данных (предварительная обработка данных) перед предоставлением данных в качестве входных данных для алгоритма машинного обучения. Более поздний метод предпочтительнее, поскольку он имеет более широкое применение.

Как мы обсуждали выше детали некоторых методов. Ниже приведена сводка с именами для решения проблемы несбалансированного набора данных.

Некоторые из распространенных методов:

Соберите больше данных
Случайная недостаточная выборка доминирующего класса
Случайная избыточная выборка недоминирующего класса
Кластерная избыточная выборка
Методы алгоритмического ансамбля
Методы на основе мешков для несбалансированных данных

Я подробно расскажу о каждой теме в следующих постах. Продолжайте проверять !!!

Я надеюсь, что эта тема даст вам общее представление о проблеме с несбалансированным классом и названиях методов для решения этой проблемы.

Продолжай читать !!! Счастливого обучения!!

Проблема несбалансированного набора данных и некоторые методы решения этой проблемы - Часть 1!!

Вопросы по теме