Еще один способ недовыборки несбалансированных классов

Привет, все в порядке? большой! Как упоминалось в моей предыдущей статье о недостаточной выборке CNN, сегодня я приведу вам еще одно правило для недостаточной выборки наших несбалансированных классов в нашем наборе данных.

Отредактированное правило ближайших соседей для недостаточной выборки включает использование K=3 ближайших соседей к точкам данных, которые были неправильно классифицированы и которые затем удаляются до применения правила классификации K=1. Этот подход повторной выборки и классификации был впервые предложен Деннисом Уилсоном в его статье 1972 года под названием Асимптотические свойства правил ближайших соседей с использованием отредактированных данных.

При использовании в качестве процедуры недостаточной выборки правило может применяться к каждому примеру в классе большинства, позволяя удалить те примеры, которые ошибочно классифицированы как принадлежащие к классу меньшинства, а те, которые правильно классифицированы, остаются.

Давайте посмотрим, как мы можем применить ENN

Ну вот и все! если мы проверим класс, у нас будет правильно сбалансированный класс

Counter({0: 9900, 1: 100})
Counter({0: 9806, 1: 100})

Как и CNN, ENN дает наилучшие результаты в сочетании с другим методом передискретизации, таким как SMOTE.

Чтобы узнать больше о том, как работает SMOTE, это целая глава, хорошо описанная в моей предыдущей статье. Однако позвольте мне поделиться с вами кодом SMOTEENN, чтобы вы могли держать инструмент под рукой.

Были введены дополнительные расширения ENN, а именно:

1. RepeatedEditedNearestNeighbours:http://glemaitre.github.io/imbalanced-learn/generated/imblearn.under_sampling.RepeatedEditedNearestNeighbours.html

2. Все KNN: https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.AllKNN.html

Вот мы и подошли к концу еще одной интересной темы, надеюсь, вам понравилось.

Точно так же я постараюсь принести больше интересных тем со всего мира, отлаженных с помощью моей интуиции, затем я нашел еще одну интересную тему «Односторонний выбор для недостаточной выборки», увидимся там. Каооо.

Если вы хотите узнать больше о новых способах ведения науки о данных, следите за другими моими статьями.

Некоторые из моих альтернативных сайтов в Интернете Facebook, Instagram, Udemy, Blogger, Issuu и другие.

Также доступно на Quora @ https://www.quora.com/profile/Rupak-Bob-Roy

Хорошего дня.