Процесс интеллектуального анализа данных включает в себя извлечение знаний с использованием инструментов анализа данных для поиска ранее неизвестных закономерностей, тенденций, взаимосвязей и идей из огромных наборов данных. Эти инструменты могут использовать статистические модели, методы машинного обучения и математические алгоритмы, такие как нейронные сети или деревья решений. Таким образом, интеллектуальный анализ данных включает в себя анализ и прогнозирование. Классификация — это процесс поиска модели, которая описывает и различает классы данных и концепции.

Классификация — это классический метод интеллектуального анализа данных, основанный на машинном обучении. По сути, классификация используется для классификации каждого элемента в наборе данных в один из предопределенных наборов классов или групп. В классификации мы разрабатываем программное обеспечение, которое может научиться классифицировать элементы данных по группам. Например, мы можем применить классификацию в приложении, которое, учитывая все записи о сотрудниках, уволившихся из компании, предскажет, кто, вероятно, покинет компанию в будущем периоде. В этом случае разделим записи сотрудников на две группы с названиями «уходят» и «остаются». А затем мы можем попросить наше программное обеспечение для интеллектуального анализа данных классифицировать сотрудников по отдельным группам.

Классификация — это когда модель должна классифицировать некоторые события/объекты на основе заданных входных данных. Например, модель классификации может относиться к обнаружению спама в электронной почте, где выходные данные модели будут классифицировать электронную почту как спам или не спам. Модели классификации предсказывают категориальные метки классов; и модели предсказания предсказывают функции с непрерывным значением.

Это двухэтапный процесс, например:

  1. Этап обучения (этап обучения): построение модели классификации

Различные методы алгоритма используются для построения классификатора, заставляя модель обучаться с использованием доступного обучающего набора. Модель должна быть обучена для прогнозирования точных результатов.

Классификатор строится из обучающего набора, состоящего из кортежей базы данных и связанных с ними меток классов.

2. Этап классификации (этап тестирования): модель, используемая для прогнозирования меток классов и тестирования построенной модели на тестовых данных и, следовательно, оценки точности классификации. Правила классификации могут быть применены к новым кортежам данных, если точность считается приемлемой.

Основные инструменты, используемые в Data Mining:

· Используемые языки: R, SAS, Python, SQL.

· Используемые инструменты (среды): RapidMiner, Orange, Spark, Weka.

· Используемые библиотеки: Jupyter, NumPy, Matplotlib, Pandas, ScikitLearn, NLTK, TensorFlow, Seaborn, Basemap и др.

Алгоритмы классификации в машинном обучении:

1. Деревья решений — их легко понять и визуализировать, они требуют небольшой подготовки данных и могут обрабатывать как числовые, так и категориальные данные.

2. Машины опорных векторов. Машина опорных векторов представляет собой представление обучающих данных в виде точек в пространстве, разделенных на категории четким промежутком как можно большего размера. Затем новые примеры сопоставляются с тем же пространством, и их принадлежность к категории определяется в зависимости от того, на какую сторону разрыва они попадают.

3. Логистическая регрессия. В этом алгоритме вероятности, описывающие возможные результаты одного испытания, моделируются с использованием логистической функции.

4. Наивный алгоритм Байеса, основанный на теореме Байеса с предположением о независимости между каждой парой признаков. Наивные байесовские классификаторы хорошо работают во многих реальных ситуациях, таких как классификация документов и фильтрация спама.

Сравнение методов классификации:

1. Точность — Точность классификатора относится к способности классификатора. Он правильно предсказывает метку класса, а точность предиктора относится к тому, насколько хорошо данный предиктор может угадать значение предсказанного атрибута для новых данных.

2. Скорость — это относится к вычислительным затратам при создании и использовании классификатора или предиктора.

3. Масштабируемость. Масштабируемость относится к способности эффективно создавать классификатор или предиктор; учитывая большой объем данных.

4. Интерпретируемость — это относится к тому, насколько хорошо понимает классификатор или предиктор.