Проблема с набором данных Glass. Поэтому я подумал о том, чтобы взять случайный набор данных и применить несколько моделей, чтобы классифицировать наши данные. Просто хотел сделать это для практики и немного рук.
Я взял набор данных из Kaggle, но, по сути, это набор данных на основе репозитория UCI. Ссылка на набор данных приведена ниже:
Таким образом, в соответствии с набором данных у нас есть фиксированное количество стеклянных компонентов или вещей, используемых для изготовления этого конкретного типа стекла, и на основе количества нам нужно определить тип стекла или классифицировать набор данных.
Для данной задачи я не применял никакой предварительной обработки и получил общую точность 81%, но если вы применяете предварительную обработку, вы можете получить более высокую точность. Я сразу перейду к коду и перейду к реализации.
Начнем с импорта библиотек.
import numpy as np import pandas as pd
Импорт набора данных. (Обратите внимание, что местоположение основано на Kaggle)
data=pd.read_csv('../input/glass/glass.csv') print('Shape of data is {}'.format(data.shape))
Давайте напечатаем несколько значений набора данных .
data.head()
data.describe()
Давайте определим наши функции и целевые значения из нашего набора данных.
features=data.iloc[:,:-1] target=data.iloc[:,-1]
Мы можем распечатать значения, и они будут выглядеть примерно так.
Следующим шагом будет включение библиотек из sklearn, которые будут использоваться для создания нашего классификатора и разделения наших данных на тестовые и обучающие.
from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
Следующим шагом будет создание нашего классификатора с помощью sklearn и сопоставление наших данных с созданной нами моделью.
clf = DecisionTreeClassifier() clf.fit(X_train,y_train)
Нашим следующим шагом будет прогнозирование значений с помощью нашей модели, чтобы протестировать нашу модель.
y_pred=clf.predict(X_test)
Теперь мы можем проверить точность нашей модели с помощью библиотеки метрик от sklearn.
from sklearn.metrics import accuracy_score print(accuracy_score(y_test,y_pred))
Это все на сегодня. Продолжай учиться.
Ваше здоровье.