Проблема с набором данных Glass. Поэтому я подумал о том, чтобы взять случайный набор данных и применить несколько моделей, чтобы классифицировать наши данные. Просто хотел сделать это для практики и немного рук.

Я взял набор данных из Kaggle, но, по сути, это набор данных на основе репозитория UCI. Ссылка на набор данных приведена ниже:



Классификация стекла
Можете ли вы правильно определить тип стекла?www.kaggle.com



Таким образом, в соответствии с набором данных у нас есть фиксированное количество стеклянных компонентов или вещей, используемых для изготовления этого конкретного типа стекла, и на основе количества нам нужно определить тип стекла или классифицировать набор данных.

Для данной задачи я не применял никакой предварительной обработки и получил общую точность 81%, но если вы применяете предварительную обработку, вы можете получить более высокую точность. Я сразу перейду к коду и перейду к реализации.

Начнем с импорта библиотек.

import numpy as np
import pandas as pd

Импорт набора данных. (Обратите внимание, что местоположение основано на Kaggle)

data=pd.read_csv('../input/glass/glass.csv')
print('Shape of data is {}'.format(data.shape))

Давайте напечатаем несколько значений набора данных .

data.head()

data.describe()

Давайте определим наши функции и целевые значения из нашего набора данных.

features=data.iloc[:,:-1]
target=data.iloc[:,-1]

Мы можем распечатать значения, и они будут выглядеть примерно так.

Следующим шагом будет включение библиотек из sklearn, которые будут использоваться для создания нашего классификатора и разделения наших данных на тестовые и обучающие.

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

Следующим шагом будет создание нашего классификатора с помощью sklearn и сопоставление наших данных с созданной нами моделью.

clf = DecisionTreeClassifier()
clf.fit(X_train,y_train)

Нашим следующим шагом будет прогнозирование значений с помощью нашей модели, чтобы протестировать нашу модель.

y_pred=clf.predict(X_test)

Теперь мы можем проверить точность нашей модели с помощью библиотеки метрик от sklearn.

from sklearn.metrics import accuracy_score
print(accuracy_score(y_test,y_pred))

Это все на сегодня. Продолжай учиться.

Ваше здоровье.