Анализ EDA и ML с наборами данных Kaggle Iris

Работая с различными наборами данных, доступными на kaggle, а затем работая с исследовательским анализом данных, я столкнулся с библиотекой Seaborn Python для визуализации данных.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

После импорта вышеуказанных библиотек теперь мы собираемся проанализировать наши данные, прочитав файл csv с помощью кадра данных pandas, а затем используя функцию shape, чтобы узнать количество строк и столбцов в данном кадре данных.

Имея приведенную выше форму фрейма данных, теперь мы собираемся проанализировать заголовок фрейма данных следующим образом:

Кроме того, мы можем проанализировать тип объекта столбцов фрейма данных следующим образом, где каждая функция имеет 150 значений, каждое из которых не имеет значений null или na,

Кроме того, мы можем проанализировать различные атрибуты данных функций из наборов данных Iris, которые не являются объектными типами данных, следующим образом:

Теперь давайте проанализируем данные для объекта Species с функцией подсчета графиков из sns catplot, где показано, что у каждого вида есть 50 каждого подсчета данных следующим образом:

Давайте проанализируем одномерный анализ с гистограммой и KDE с графиком распределения следующим образом:

Вышеуказанные вариации, показанные на гистограмме, также можно проверить с помощью значений асимметрии и эксцесса, например:

Давайте проанализируем зависимость одного признака от другого, используя snspairplot,

На приведенном выше рисунке мы можем проанализировать, что функция PetalLengthCm и PetalWidthCm имеют приблизительно линейную зависимость, которую мы также можем проверьте с помощью тепловой карты со следующей диаграммой, где значение корреляции также равно 0,96,

Теперь с двумерным анализом блочных диаграмм давайте проанализируем данные с помощью Species и SepalLengthCm, SepalWidthCm, PetalLengthCm и PetalWidthCm как,

Кроме того, двумерный анализ графика скрипки, давайте проанализируем данные с Species и SepalLengthCm, SepalWidthCm, PetalLengthCm и PetalWidthCm как ,

Теперь давайте углубимся в различные доступные алгоритмы машинного обучения, чтобы выяснить точность, матрицу путаницы и т. д., как показано ниже.

Здесь ниже мы разделяем наборы данных на обучающие и тестовые наборы данных, при этом 70% приходится на обучающие наборы данных, а 30% — на тестовые наборы данных. снова шаги.

Когда значения random_state изменяются, распределение наборов данных также будет меняться, и, следовательно, окончательный процент точности также будет отличаться.

После разделения данных мы можем использовать различные доступные алгоритмы машинного обучения от SK Learn для реализации модели следующим образом:

Вот и все! Большое спасибо, что дочитали до конца этот блог. Я буду признателен, если вы также прокомментируете свое мнение!

Анализ EDA и ML с наборами данных Kaggle Iris

Вопросы по теме