Это должен знать каждый Data Scientist!!!

В сценариях маркетинга, проблемы прогнозирования оттока и т. д. каждый ученый столкнулся бы с проблемой дисбаланса классов, когда количество баллов для класса A и класса B было бы очень разным, то есть оно могло бы быть 1: 9 или даже меньше на каждого. скажем 1:200. В ситуациях, когда вы хотите предсказать клиентов, которые могут купить продукт, если они нажмут на баннер. Если копнуть глубже, многие клиенты случайно нажимают на баннер. Можем ли мы использовать ML в те времена?
Ответ: ДА!!!!!

В продвинутых алгоритмах, таких как XGBoost, LightGBM и т. д., дисбаланс классов обрабатывается по-другому, но если вы поклонник Random Forests!!!, да, он также обрабатывает дисбаланс. Как? Давайте перейдем к процедуре.

Мы знаем, что Random Forests строят деревья, загружая образцы, а затем голосуя большинством голосов. Если вы хотите узнать больше о РФ, потратьте 2 минуты здесь.

Сбалансированный случайный лес

Одним из параметров случайных лесов является class_weights, который принимает сбалансированный в качестве входных данных, где веса классов вычисляются как

n_samples / (n_classes * ([n_samples_classA, n_samples_classB])

Сбалансированный ВЧ работает следующим образом:

а) При построении дерева с помощью пробных образцов сначала загрузите образцы из класса меньшинства, а затем случайным образом выберите такое же количество экземпляров из класса большинства.

б) построить дерево, используя приведенные выше образцы

в) повторить шаги а. и b.for n деревьев, а затем агрегировали прогнозы от дерева до голосования по большинству или прогноза усреднения.

2) Взвешенные случайные леса

Параметр class_weights инициализируется словарем как {0:1,1:9}, что означает, что наш дисбаланс между 1 и 0 равен 1:9.

Пока RF строит деревья, эти веса классов используются в двух местах.

Хотя каждый узел разделяется при построении дерева, веса классов включаются в вычисление примеси Джини, как показано ниже.
В конечных узлах каждого дерева снова учитываются веса классов. Предсказание класса каждого конечного узла определяется «взвешенным большинством голосов», то есть взвешенным голосом класса является вес для этого класса, умноженный на количество случаев для этого класса в конечном узле.
Окончательный прогноз класса для RF затем определяется путем агрегирования взвешенных голосов от каждого отдельного дерева, где веса являются средними весами в конечных узлах.

Поддержите, если вам понравилась эта статья!!!!!!!😊

Это должен знать каждый Data Scientist!!!

Вопросы по теме