Недостаточная выборка: повышение производительности при несбалансированных данных

В некоторых случаях набор данных, который должен использоваться для разработки модели машинного обучения / глубокого обучения, часто бывает несбалансированным. Здесь под несбалансированным понимается крайне неравномерное или неравномерное распределение классов. Один из таких примеров несбалансированных данных приведен ниже (рис. 1):

Здесь метка 0 содержит 24 720 экземпляров, а метка 1 - только 7841 экземпляр. Это пример двоичных (так как есть 2 метки, 0 и 1) несбалансированных данных. Этот дисбаланс может быть в значительной степени уменьшен за счет недостаточной выборки класса большинства, метки 0 и приближения к таковому метке 1. Одним из хорошо известных алгоритмов недостаточной выборки является недостаточная выборка большинства на основе центроидов кластера. Техника (CCMUT). Помимо этого, я представил Технику недостаточной выборки большинства на основе расширенного центроида (E-CCMUT) в моей предыдущей статье « Методика недостаточной выборки большинства на основе расширенного центроида (E- CCMUT) ». Я обязательно расскажу об улучшении, сделанном в E-CCMUT по сравнению с CCMUT, в моей следующей статье после этого. А пока в этой статье я собираюсь продемонстрировать эксперимент с Набором данных для взрослых UCI и статистически установить, что недостаточная выборка может дать лучшие результаты и действовать как производительность Бустер в несбалансированных наборах данных.

ЭКСПЕРИМЕНТ

«Прогноз уровня дохода человека на основе данных переписи, превышающий ли он 50 тысяч долларов».

НАБОР ДАННЫХ

Набор данных для взрослых от UCI (Калифорнийский университет, Ирвин) используется для разработки прогнозной модели. Набор данных содержит 48 842 экземпляра и 14 атрибутов / функций.

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ

Кодирование метки выполняется для категориальных функций (см. Таблицу 1).
Выбор функций выполняется путем обучения всего набора данных с помощью классификатора дополнительных деревьев и использования оценок важности функций для каждой функции, характеристик расы и родной страны. упавший. (см. Таблицу 1)
Быстрое кодирование выполняется для категориальных функций, в которых каждая категория функции сама становится функцией, принимающей двоичные значения 0/1.

УДАЛЕНИЕ ДИСБАЛАНСА ДАННЫХ

Несбалансированный характер данных показан на рис. 1. Он содержит 24 720 экземпляров с меткой «0» (большинство) и 7841 экземпляров с меткой «1» (меньшинство). Этот дисбаланс данных устраняется с помощью метода недостаточной выборки большинства на основе кластерных центроидов (CCMUT), в котором класс большинства (метка 0) имеет недостаточную выборку на 68%. Уменьшение дисбаланса данных после недостаточной выборки на 68% показано на рис.

ПЕРЕМЕШИВАНИЕ И РАЗДЕЛЕНИЕ

Результирующий набор данных содержит 7911 экземпляров с меткой «0» и 7841 экземпляров с меткой «1». Весь набор данных перетасовывается согласованным образом и разбивается на 80–20 (80% обучающего набора и 20% проверочного набора).

АЛГОРИТМ ОБУЧЕНИЯ

Классификатор повышения градиента используется в качестве алгоритма обучения в обучающем наборе. Классификатор настроен с помощью Grid-Search для получения наилучшего набора гиперпараметров.

200 оценок и максимальная глубина 4 получены как лучшие гиперпараметры после поиска по сетке. Сводная информация о настройке модели с поиском по сетке на основе среднего балла показана на рисунке 3.

РЕЗУЛЬТАТЫ:

Производительность модели анализируется с использованием показателей: «Точность обучения», «Точность проверки», «Отзыв», «Точность», F1-оценка, площадь под характеристической кривой оператора приемника (AUROC, показанная на рисунке 4) и матрица неточностей (показанная на рисунке 5).

Точность обучения, точность проверки, отзыв, точность и F1-Score приведены в таблице 2.

СРАВНЕНИЕ С УРОВЕНЬ ТЕХНИКИ

На данный момент исследовательский документ под названием «Статистический подход к прогнозированию уровня дохода взрослого населения», подготовленный Чакрабарти и др. [1], является государственным ультрасовременная модель. Сравнение с современным уровнем техники приведено в таблице 2.

ЗАКЛЮЧЕНИЕ

Из статистических результатов продемонстрированного выше эксперимента очевидно, что недостаточная выборка может оказаться очень мощным усилителем производительности, если в используемых данных присутствует дисбаланс классов.

ССЫЛКИ

[1] Чакрабарти, Навонил и Санкет Бисвас. «Статистический подход к прогнозированию уровня доходов взрослого населения». Препринт arXiv arXiv: 1810.10076 (2018).

Для личных контактов относительно статьи или обсуждений машинного обучения / интеллектуального анализа данных или любого отдела науки о данных, не стесняйтесь обращаться ко мне в LinkedIn

Навонил Чакрабарти - автор, внесший вклад - На пути к науке о данных | LinkedIn
Просмотрите профиль Навонила Чакрабарти в LinkedIn, крупнейшем в мире профессиональном сообществе. В Navoneel указано 2 вакансии… www.linkedin.com

Недостаточная выборка: повышение производительности при несбалансированных данных

Вопросы по теме