Также другие факторы, влияющие на оценки учеников.

Эта статья разбита на 3 части.

  1. В первой части мы понимаем факторы, как количество часов отсутствия на курсе не повлияет на итоговую оценку учащихся, и подготавливаем данные для модели машинного обучения.
  2. Во второй части мы строим дерево решений, чтобы предсказать шансы исхода событий для итоговых оценок учащихся, и построить график зависимости между оценками и консультациями, а также построить график зависимости между оценками и отсутствием.
  3. В третьей части мы создаем нейронную сеть для прогнозирования оценок учащихся, используя количество часов отсутствия на курсе и консультации, которые влияют на успеваемость учащихся. Используя keras и Tenserflow.

Пакеты

В этой статье затронуты темы

  1. Исследовательский анализ данных.
  2. Подготовка данных
  3. Предварительная обработка данных
  4. Классификация дерева решений
  5. Нормализация набора данных
  6. Построение модели
  7. Оценка модели
  8. Показатель эффективности
  9. Сохраните модель в файл

Загрузка данных с помощью простого пакета pandas следующим образом.

Алгоритм машинного обучения может лучше работать с числовыми значениями, но в нашем наборе данных Итоговые оценки являются текстовыми значениями. Чтобы преобразовать категориальные текстовые данные в числовой машиночитаемый формат из пакета sklearn, мы применяем Label Encoder () метод.

label_encoder.fit_transform (std [‘Finalgrades’]) преобразует текстовое значение в числовые значения как 0 = «пройти», 1 = «повторить», 2 = «повторить».

Подобно кодировщику меток от sklearn, используется пакет pandas, который может преобразовывать категориальные значения в серию нулей и единиц. что значительно упрощает количественную оценку и сравнение. Это может преобразовать значения внутри столбцов в столбцы, чтобы сделать их более значимыми. используя пакет pandas dummy.

Используя пакет pandas concat dataframe с фиктивными данными, результат представляет собой комбинацию значений столбцов 0 и 1 с соответствующими итоговыми оценками учащихся.

В наборе данных он содержит ConsultationsD1 и ConsultationsD2 - это не что иное, как количество раз, когда студенты консультируются или посещают профессора, чтобы обсудить свой проект. Это также объяснялось в прошлом: чем больше мы понимаем проблему, тем лучше получаем ее решение. В следующей статье я покажу, как степень, полученная при консультации или визите к профессору, повлияет на оценку студентов.

Создание нового столбца в новом наборе данных как Консультации, чтобы объединить значение другой консультацииd1 и консультацииd2 в один столбец. И удаление оставшихся столбцов с помощью пакета pandas.

Исследовательский анализ данных: для построения взаимосвязи между оценками и консультациями. используя график регрессии пакета seaborn t.

Постройте взаимосвязь между оценками, консультациями и Hrabsence, используя пакет seaborn.

Чтобы увидеть общее количество учащихся, сдавших, повторивших и повторно сдавших экзамен.

Затем, чтобы увидеть и сравнить оценки учащихся с итоговыми оценками.

А теперь посмотрите, не соотносятся ли часы отсутствия на курсе с оценками учащихся.

Использование Crosstab, которое объединяет матрицы из двух или более столбцов в наборе данных, которые содержат категориальные значения, для быстрого получения итогов.

С помощью гистограммы мы можем соотнести значимую связь между количеством часов отсутствия на курсе и итоговыми оценками.

Тест хи-квадрат

Часть 1: исходный код Github / Jupyternotebook





В следующей статье часть 2 мы обсудим использование дерева решений, чтобы найти возможный результат оценки.

Об авторе: Рагху Байя, специалист по машинному обучению и глубокому обучению.

Эксперт в области больших данных