Сбалансированный набор данных:

Прежде чем дать вам определение сбалансированного набора данных, позвольте мне привести пример для вашего лучшего понимания. Предположим, у меня есть набор данных с тысячами точек данных, и я назвал его «N». Итак, теперь N = 1000 точек данных, & N имеет два разных класса: один - N1, а другой - N2. Внутри N1 имеется 580 точек данных, а внутри N2 - 420 точек данных. N1 имеют положительные (+ Ve) точки данных, а N2 имеют отрицательные (-Ve) точки данных. Таким образом, мы можем сказать, что количество точек данных N1 и N2 почти одинаково, чем друг у друга. Итак, я могу написать N1 ~ N2. Затем доказывается, что N - сбалансированный набор данных.
Сбалансированный набор данных - это тот, который содержит равное или почти равное количество выборок из положительного и отрицательного классов.

Несбалансированный набор данных:

Прежде чем дать вам определение несбалансированного набора данных, позвольте мне привести пример для вашего лучшего понимания, допустим, у меня есть набор данных с тысячами точек данных, и я назвал его «N». Итак, теперь N = 1000 точек данных, & N имеет два разных класса: один - N1, а другой - N2. Внутри N1 имеется 900 точек данных, а внутри N2 - 100 точек данных. N1 имеют положительные (+ Ve) точки данных, а N2 имеют отрицательные (-Ve) точки данных. Таким образом, мы можем сказать, что количество точек данных N1 и N2 не похоже друг на друга. Итак, я могу написать N1 ≠ N2, тогда будет доказано, что N - несбалансированный набор данных.

Несбалансированность распределения данных - важная часть рабочего процесса машинного обучения. Несбалансированный набор данных означает, что экземпляры одного из двух классов выше, чем другого, иным образом количество наблюдений не одинаково для всех классов в классификации набор данных

Как работать с несбалансированным набором данных:

Что ж, есть несколько методов для обработки несбалансированного набора данных, но также есть некоторые проблемы, я кратко объясню их все ниже, есть два разных метода для обработки несбалансированного набора данных.

  1. Недостаточная выборка
  2. Передискретизация

1. Недостаточная выборка:

Предположим, у меня есть набор данных «N» с 1000 точками данных. И «N» имеют два класса: один - n1, а другой - n2. У этих двух классов есть два разных отзыва: положительный и отрицательный. Здесь n1 - положительный класс (+ Ve) и имеет 900 точек данных, а n2 - отрицательный класс (-Ve) и имеет 100 точек данных, поэтому мы можем сказать, что n1 является классом большинства, потому что n1 имеет большое количество точек данных, а n2 является классом меньшинства, потому что у n2 меньше точек данных. Для обработки этого несбалансированного набора данных я создам новый набор данных под названием N ’. Здесь я возьму все (100) n2 точек данных как есть, и я случайным образом возьму (100) n1 точек данных и помещу в набор данных под названием N ’. Это уловка сэмплирования и называется недовыборкой.

• Недостатки неполной выборки:

До недостаточной выборки у меня было 1000 точек данных в N, а после недостаточной выборки у меня было только 200 точек данных в N ’. Теперь у меня есть несколько точек данных, и я отбросил около 80% точек данных, что не очень хорошо для получения хорошей модели, потому что 80% наборов данных также являются 80% важной информацией.
Итак, теперь мы можем написать | N '| ‹| N |
Это недостатки недостаточной выборки, для решения этой проблемы недостаточной выборки мы представим новый метод, называемый передискретизацией.

2. Передискретизация:

Когда один класс данных является недопредставленным классом меньшинства в выборке данных, методы передискретизации могут использоваться для дублирования этих результатов для получения более сбалансированного количества положительных результатов в обучении. Передискретизация используется, когда объем собранных данных недостаточен. Популярной техникой передискретизации является SMOTE (техника передискретизации синтетического меньшинства), которая создает синтетические выборки путем случайной выборки характеристик из вхождений в классе меньшинства.

Использованная литература:

Источник на рис. 3 https://bit.ly/2XkMBcl
Источник на рис. 4 https://bit.ly/2Jj9XFn
Источник на рис. 5 https://bit.ly/2FNQ7kV