Современный автомобиль - это сложная техническая система, в которой задействованы подсистемы с определенными конструктивными функциями. Некоторые из них состоят из тысяч составных частей, которые возникли в результате достижений в существующих технологиях или новых технологий, таких как электронные компьютеры, высокопрочные пластмассы и новые сплавы стали и цветных металлов.

Исследовательский анализ данных (EDA)

Исследовательский анализ данных - это процесс, в ходе которого человек изучает данные, формирует идеи и определяет важные столбцы (функции), которые могут быть использованы пользователем, чтобы рассказать историю или позже сформулировать проблему машинного обучения.

Целью выполнения исследовательского анализа данных является поиск функций, влияющих на цены Auto Mobile.

Набор данных, используемый при выполнении этого EDA, взят из Kaggle
https://www.kaggle.com/toramky/automobile-dataset
Этот набор данных содержит данные из Автомобильного ежегодника Ward 1985 года, который относится к автомобили (Автомобили).

Импортируются необходимые библиотеки, такие как Matplotlib, Seaborn, Pandas, Numpy.

Библиотека warnings была импортирована для подавления предупреждений с помощью команды warnings.filterwarnings("ignore")

Данные были импортированы как набор данных в переменную data с помощью метода .read_csv() библиотеки Pandas.

Методы .head() и .tail() могут использоваться для отображения фрейма данных, состоящего из первых пяти строк и последних пяти строк соответственно.

Метод .unique() возвращает список тех наблюдений, которые уникальны в наборе данных. 22 наблюдения признаны уникальными.

Функции, значения и их типы данных, присутствующие во фрейме данных, могут быть найдены с помощью метода .info(). Обнаружено, что все ячейки не пустые.

.describe() метод дает среднее, минимальное, максимальное, медианное значение, Q1 и Q3.

Используя метод.isnull(), известно, что признаки normalized-losses, num-of-doors, bore, stroke, horsepower, peak-rpm и price имеют нулевые значения. Эти нулевые значения должны быть заполнены.

Визуализация данных

Визуализация данных - это процесс принятия информации (данных) и помещения ее в визуальный контекст, такой как карта или график. Визуализация данных упрощает понимание больших и малых данных человеческим мозгом, а визуализация также упрощает обнаружение закономерностей, тенденций и выбросов в группах данных.

Установлено, что наибольшее количество автомобилей выпускает toyota.

Из приведенного выше кругового графика известно, что большая часть автомобилей производится на gas.

Диаграмма рассеяния используется для просмотра прогнозирующей или корреляционной связи между переменными.

На приведенном выше графике показана умеренная положительная корреляция между price и length, width и height.

Коробчатая диаграмма дает хорошее графическое изображение концентрации данных. Они также показывают, насколько далеко крайние значения от большинства данных.

Автомобиль от bmw стоит дороже, чем у других компаний, за которыми следует mercury.

На приведенном выше графике показана сильная положительная корреляция между engine-size и price. Следовательно, price зависит от engine-size.

Установлено, что увеличение horsepower имеет увеличение price.

Заключение

  • Toyota производит большую часть автомобилей, чем другие фирмы.
  • Производство автомобилей, работающих на газе, намного больше, чем тех, которые работают на дизельном топливе.
  • Цена автомобиля зависит от его габаритов, колесной базы, снаряженной массы, количества цилиндров, диаметра цилиндра, хода, л.с.