Также другие факторы, влияющие на оценки учеников.
Эта статья разбита на 3 части.
- В первой части мы понимаем факторы, как количество часов отсутствия на курсе не повлияет на итоговую оценку учащихся, и подготавливаем данные для модели машинного обучения.
- Во второй части мы строим дерево решений, чтобы предсказать шансы исхода событий для итоговых оценок учащихся, и построить график зависимости между оценками и консультациями, а также построить график зависимости между оценками и отсутствием.
- В третьей части мы создаем нейронную сеть для прогнозирования оценок учащихся, используя количество часов отсутствия на курсе и консультации, которые влияют на успеваемость учащихся. Используя keras и Tenserflow.
Пакеты
В этой статье затронуты темы
- Исследовательский анализ данных.
- Подготовка данных
- Предварительная обработка данных
- Классификация дерева решений
- Нормализация набора данных
- Построение модели
- Оценка модели
- Показатель эффективности
- Сохраните модель в файл
Загрузка данных с помощью простого пакета pandas следующим образом.
Алгоритм машинного обучения может лучше работать с числовыми значениями, но в нашем наборе данных Итоговые оценки являются текстовыми значениями. Чтобы преобразовать категориальные текстовые данные в числовой машиночитаемый формат из пакета sklearn, мы применяем Label Encoder () метод.
label_encoder.fit_transform (std [‘Finalgrades’]) преобразует текстовое значение в числовые значения как 0 = «пройти», 1 = «повторить», 2 = «повторить».
Подобно кодировщику меток от sklearn, используется пакет pandas, который может преобразовывать категориальные значения в серию нулей и единиц. что значительно упрощает количественную оценку и сравнение. Это может преобразовать значения внутри столбцов в столбцы, чтобы сделать их более значимыми. используя пакет pandas dummy.
Используя пакет pandas concat dataframe с фиктивными данными, результат представляет собой комбинацию значений столбцов 0 и 1 с соответствующими итоговыми оценками учащихся.
В наборе данных он содержит ConsultationsD1 и ConsultationsD2 - это не что иное, как количество раз, когда студенты консультируются или посещают профессора, чтобы обсудить свой проект. Это также объяснялось в прошлом: чем больше мы понимаем проблему, тем лучше получаем ее решение. В следующей статье я покажу, как степень, полученная при консультации или визите к профессору, повлияет на оценку студентов.
Создание нового столбца в новом наборе данных как Консультации, чтобы объединить значение другой консультацииd1 и консультацииd2 в один столбец. И удаление оставшихся столбцов с помощью пакета pandas.
Исследовательский анализ данных: для построения взаимосвязи между оценками и консультациями. используя график регрессии пакета seaborn t.
Постройте взаимосвязь между оценками, консультациями и Hrabsence, используя пакет seaborn.
Чтобы увидеть общее количество учащихся, сдавших, повторивших и повторно сдавших экзамен.
Затем, чтобы увидеть и сравнить оценки учащихся с итоговыми оценками.
А теперь посмотрите, не соотносятся ли часы отсутствия на курсе с оценками учащихся.
Использование Crosstab, которое объединяет матрицы из двух или более столбцов в наборе данных, которые содержат категориальные значения, для быстрого получения итогов.
С помощью гистограммы мы можем соотнести значимую связь между количеством часов отсутствия на курсе и итоговыми оценками.
Тест хи-квадрат
Часть 1: исходный код Github / Jupyternotebook
В следующей статье часть 2 мы обсудим использование дерева решений, чтобы найти возможный результат оценки.
Об авторе: Рагху Байя, специалист по машинному обучению и глубокому обучению.
Эксперт в области больших данных