Прежде всего, давайте ответим, что такое интеллектуальный анализ данных?
Интеллектуальный анализ данных – это процесс анализа огромных объемов данных для обнаружения бизнес-аналитики, поиска шаблонов, которые помогают нам решать проблемы, смягчать рисковать и использовать новые возможности.

Интеллектуальный анализ данных используется во многих областях бизнеса и исследований, включая продажи и маркетинг, разработку продуктов, здравоохранение и образование. При правильном использовании интеллектуальный анализ данных может обеспечить серьезное преимущество перед конкурентами, позволяя вам больше узнать о клиентах, разработать эффективные маркетинговые стратегии, увеличить доход и снизить затраты.

Здесь я беру данные учащихся обо всех курсах и оценках прошлых лет и использую их для прогнозирования успеваемости учащихся на основе пройденных ими курсов.

Цели:

  1. Как мы можем предсказать успеваемость студентов в конце обучения на курсах второго года обучения, которые они посещают?
  2. Как мы можем оценить студента с пройденными, ожидаемыми курсами, повторным семестром, отозванными и добровольно отозванными?
  3. Мы можем найти студентов, которым требуется дополнительная академическая помощь, и помочь конкретному отделу сосредоточиться на конкретных студентах.

Обзор процесса интеллектуального анализа данных

Инструменты

Rapidminer: RapidMiner Studio – это мощный инструмент для интеллектуального анализа данных, который позволяет выполнять все, от интеллектуального анализа данных до развертывания моделей и операций с моделями. Наша комплексная платформа обработки данных предлагает все возможности подготовки данных и машинного обучения, необходимые для реального воздействия на всю вашу организацию.

Методы интеллектуального анализа данных:

Классификация:

Классификация — это один из методов интеллектуального анализа данных, который используется для классификации каждого элемента данных по заранее определенному набору меток классов. Метод классификации - это метод математической техники, такой как дерево решений, линейное программирование и статистика. Каждый кортеж, составляющий обучающую выборку, называется классом. Эти кортежи также могут называться образцами, точками данных или объектами. (Зентут, 2019)

Дерево решений — это алгоритм классификации, который мы собираемся использовать при построении нашей модели.

Дерево решений:

Дерево решений — это совокупность узлов, которая предназначена для создания решения о выборе значений для класса по любым оценочным числовым значениям. Каждый узел соответствует определенному атрибуту разделения. Правило разделяет значения, принадлежащие другому классу, оно разделяет их, чтобы уменьшить ошибку. Создание нового узла повторяется до тех пор, пока не будут удовлетворены конечные критерии. Предсказание знака класса определяется в зависимости от абсолютного большинства примеров, достигших этого листа в процессе генерации. Оценка числового значения финансируется путем усреднения значений в листе. (РапидМайнер, 2019)

Терминология, которую следует помнить при работе с деревьями решений:

Parent Node - a node divided into sub-nodes
Child Node - sub-nodes from a parent node
Root Node - represents the sample space/population that will be split into two or more sets (sub-nodes)
Decision Node - sub-node that splits into more sub-nodes
Leaf Node - nodes without splits (children)
Branch - a subsection of a decision tree
Pruning - reducing the size of a decision tree by removing nodes

Предлагаемая модель интеллектуального анализа данных:

Подготовка данных:

  1. Обработка пустых значений

2. Предварительный просмотр данных:

Давайте посмотрим на данные

мы создаем новую колонку средней оценки от G1 до G3 (в среднем за 3 года):

Наконец, мы удалим столбцы «школа» и «возраст».

Построение модели:

В этой модели добавлены два дополнительных оператора:

  1. Оператор Применить модель применяет модель к набору примеров. Модель сначала обучается на примере, заданном алгоритмом дерева решений. Цель состоит в том, чтобы предсказать невидимые данные или преобразование данных с помощью модели предварительной обработки.
  2. Оператор «Производительность» перечисляет стандарт производительности, и значения автоматически определяют порядок, соответствующий задаче обучения.

Результаты и визуализации:

Понимание дерева решений:

CGPA › 1.670
| CGPA › 2.625: ПРОШЕЛ {
ПОВТОРНЫЙ СЕМЕСТР = 0, ОЖИДАЕМЫЙ КУРС = 1, ПРОЙДЕН = 28, ПОВТОРНЫЙ СЕМЕСТР = 0, ОТЛОЖЕННЫЙ = 0, ДОБРОВОЛЬНЫЙ ОТЗЫВ = 0, ОТМЕНЕННЫЙ = 0}
| CGPA ≤ 2,625: ОЖИДАЕМЫЙ КУРС {
ПОВТОРНЫЙ СЕМЕСТР = 0, ОЖИДАЕМЫЙ КУРС = 33, ПРОШЕЛ = 1, ПОВТОРНЫЙ СЕМЕСТР = 1, ОТЛОЖЕННЫЙ = 1, ДОБРОВОЛЬНОЕ ОТМЕНЕНИЕ = 0, ОТМЕНЕННЫЙ = 0}

CGPA ≤ 1,670
| CGPA › 1.385:
ПОВТОРНЫЙ СЕМЕСТР {
ПОВТОРНЫЙ СЕМЕСТР = 2, ОЖИДАЕМЫЙ КУРС = 0, ПРОЙДЕН = 0, ПОВТОРНЫЙ СЕМЕСТР = 0, ОТЛОЖЕННЫЙ = 0, ДОБРОВОЛЬНЫЙ ОТМЕНА = 0, ОТМЕНА = 0}
| CGPA ≤ 1,385: ОТМЕНЕН {
ПОВТОРНЫЙ СЕМЕСТР = 0, ОЖИДАЕМЫЙ КУРС = 0, ПРОШЕЛ = 0, ПОВТОРНЫЙ СЕМЕСТР = 1, ОТЛОЖЕННЫЙ = 0, ДОБРОВОЛЬНЫЙ ОТЗЫВ = 1, ОТЗЫВ = 2}

Вывод:

Основываясь на этих результатах, отдел может узнать, кому из студентов потребуется помощь, и принять соответствующие решения.