2. ЦЕЛЕВАЯ ХАРАКТЕРИСТИКА

Моя целевая функция - функция окончательной оценки. Он содержит числовые значения, которые необходимо было закодировать как категориальные значения для моего анализа. Диапазон этой характеристики был от нуля до двадцати. Я разделил его от нуля до подростка как провал и от 10 до двадцати как проход. У меня есть около 24% студентов, которые не прошли курс, и 77% студентов, которые проходят курс, и, как следствие, у меня дисбаланс в классе.

3. КОРРЕЛЯЦИЯ

Прежде чем я сделал свои модели классификации, я применил корреляцию, потому что я

хотел посмотреть, есть ли у меня сильно коррелированные функции, которые нужно удалить. Я обнаружил более высокие коррелированные характеристики: оценка за первый период, оценка за второй период были выше коррелированы с оценкой за последний период, поэтому я удалил эти две функции из своего анализа.

3. ДИССБАЛАНС КЛАССОВ

Чтобы решить проблему дисбаланса классов, я попробовал использовать методы выборки, такие как ссылки Tomek и центроиды кластера, а также попробовал два метода избыточной выборки, Smote и избыточную выборку, за которой следует недостаточная выборка. Наилучшим результатом для моего набора данных стала техника передискретизации под названием Smote. (Техника передискретизации синтетического меньшинства). Он работает путем случайного выбора элементов класса меньшинства и вычисления алгоритма k ближайших соседей для этой точки. Новые точки добавляются между выбранной точкой и ее соседом.

4. АЛГОРИТМЫ ДАННЫХ

Для моделирования своих данных я использовал логистическую регрессию, k-ближайших соседей и классификатор дерева решений. Сначала я реализую каждый классификатор с параметрами по умолчанию, затем я поворачиваю параметры для каждого классификатора. После этого точность и оценка F1 каждого классификатора увеличились примерно на 5-8%. Однако ни одна из этих моделей не была очень сильной. После этого я попробовал методы ансамблей

потому что я знал, что они увеличат точность и оценку F1. Ансамбли, которые я использовал, были: Random Forest, Gradient Boost и ботинки Ada. Я использовал тот же метод, я сначала реализую ансамбли с их параметрами по умолчанию, а затем настроил их параметры. Как и в случае с классификаторами, уровень точности и оценка F1 увеличились после того, как я настроил их параметры.