ВВЕДЕНИЕ

Из-за роста цен на новые автомобили и неспособности клиентов покупать новые автомобили из-за дефицита средств продажи подержанных автомобилей растут во всем мире. Следовательно, существует потребность в системе прогнозирования, которая помогла бы нам определить истинную стоимость автомобиля, эффективно используя множество различных функций. Производители продают новые автомобили по установленным ими ценам вместе с налогами в соответствии с государственными правилами. Таким образом, клиент считает достойным купить новый автомобиль, так как он также обеспечен гарантией. Но всегда не все клиенты могут покупать новые автомобили. Потому что покупка нового автомобиля зависит от нескольких факторов, таких как бюджет и семейное положение. Следовательно, они идут ко второму варианту покупки подержанных автомобилей, потому что они могут быть относительно дешевле, чем новые. В настоящее время существует множество средств для покупки старых автомобилей, таких как магазины подержанных автомобилей и онлайн-сайты. Поэтому, прежде чем они решат купить подержанный автомобиль, всегда лучше изучить их реальную рыночную стоимость. Это позволит лучше понять ключевые факторы, влияющие на определение рыночной стоимости подержанного автомобиля. Таким образом, считается, что модель прогнозирования для прогнозирования средней цены подержанного автомобиля должна быть построена и должна быть эффективной во всех отношениях. Модель прогнозирования может принести пользу продавцам, службам онлайн-ценообразования и покупателю, заинтересованному в покупке автомобиля. Группа продавцов будет очень заинтересована в этой модели, потому что это модель прогноза, которая помогает им понять, что делает автомобиль более желанным, его ключевые особенности, и впоследствии может использовать эти знания для улучшения обслуживания. Как было сказано ранее, существует множество онлайн-сайтов, предлагающих услуги по оценке цен. Хотя у них может быть одна такая модель прогнозирования, им может быть удобнее иметь другую модель в качестве резервной. Следовательно, эта модель также принесет пользу онлайновым веб-сервисам. Наконец, покупатели также сочтут эту модель более выгодной, так как они смогут избежать переплаты, превышающей фактическую рыночную стоимость автомобиля.

ИСПОЛЬЗУЕМЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ

А. Множественная линейная регрессия

Линейная регрессия - это аналитический метод, который используется для определения взаимосвязи между различными используемыми атрибутами, которые имеют связь между причиной и результатом. Конечная цель множественной регрессии состоит в том, чтобы связать зависимый атрибут с двумя или более независимыми атрибутами. Метод, включающий одну зависимую и одну независимую переменную, называется линейной регрессией, а метод, включающий несколько независимых переменных, называется множественной регрессией. Множественная регрессия формулируется следующим образом.

Y = β0 + β1X1 + β2X2 +…. + βnXn

Где,

Y = зависимая переменная

X= независимая переменная

β = Y-пересечение

Предположения множественной регрессии заключаются в том, что рассматриваемые атрибуты должны иметь нормальное распределение, должны быть линейными, не должны содержать выбросов и не должны иметь множественных связей между рассматриваемыми независимыми атрибутами. Эта модель была выбрана для прогнозирования цен на подержанные автомобили, поскольку набор данных содержит числовые значения в большинстве столбцов.

B. Регрессия случайного леса

Как следует из названия, случайный лес — это группа на основе дерева, где на каждое дерево влияет набор случайных переменных. Деревья, используемые в этом методе, основаны на бинарных периодических деревьях разбиения. Эти деревья делят зависимую переменную, используя ряд двоичных разделов, называемых разбиениями по отношению к независимым переменным. Корневой узел содержит все зависимые переменные. Узлы, которые не разделены, называются конечными узлами, и они настраивают окончательный раздел переменной-предиктора. Далее каждый неконечный узел делится на два узла-преемника, каждый в противоположных направлениях влево и вправо, на основе значения одной из переменных-предикторов. Статистически случайный лес оказался более привлекательным из-за мер переменной значимости, взвешивания разнородных классов, работы с пропущенными значениями и визуализации. Также с вычислительной точки зрения случайный лес более убедителен, поскольку он естественным образом поддерживает как регрессионную, так и мультиклассовую классификацию. Они также относительно быстро обучаются и прогнозируют. В основном они зависят от одного или двух параметров настройки. Другой важный аспект заключается в том, что их можно использовать параллельно и напрямую в многомерных задачах, где список независимых атрибутов огромен, как в наборе данных, который я выбрал для прогнозирования цен на подержанные автомобили в этой статье.

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА И ПРЕОБРАЗОВАНИЕ ДАННЫХ

Всегда лучше предварительно обработать данные, прежде чем строить модель. Предварительная обработка данных включает проверку наличия пропущенных значений, обнаружение выбросов, если таковые имеются, а также одномерный и двумерный анализы. Набор данных, который я собрал для прогнозирования подержанных автомобилей, состоит из 31 172 строк и 20 различных переменных, которые могут повлиять на цену подержанного автомобиля. Во-первых, после того, как я импортировал набор данных и проверил сводку, как показано ниже.

Сводка дает нам приблизительное представление о нашем наборе данных, включая среднее значение, стандартное отклонение и значения квартильного диапазона. Далее я проверил наличие пропущенных значений в наборе данных.

В моем наборе данных было несколько отсутствующих значений в различных переменных. Следовательно, чтобы решить эту проблему, я заменил соответствующие отсутствующие значения значениями из других переменных. Поскольку марка автомобиля и коробка передач взаимосвязаны, я заменил отсутствующие значения коробки передач соответствующими значениями в соответствии со значениями в столбце марки. Точно так же я заменил значения «notRepairedDamage» на категорию большинства, заменил значения FuelType на большинство в этой категории, заменил отсутствующие значения типа транспортного средства значениями типа топлива и, наконец, отсутствующие переменные модели с категорией большинства в этом столбце. . Все эти шаги помогли мне получить нулевые пропущенные значения в каждом

столбец независимых переменных. Я также хотел удалить выбросы из этих двух столбцов «год регистрации» и «цена». Поэтому я удалил строки, в которых были значения «yearsofregistration» до 1950 года и после 2017 года. Для столбца цены я удалил строки ниже 100 долларов и выше 200 000 долларов.

Я также провел одномерный анализ, чтобы проверить, нормализовано ли распределение количества переменных в каждом столбце переменных, чтобы мы не находили нерегулярные закономерности в наших данных.

Наконец, я нарисовал тепловую карту корреляции, которая помогает мне изучить коэффициент корреляции моих переменных. Поэтому я сделал вывод о переменных, которые необходимы, поскольку они имеют высокую корреляцию, и удалил другие нежелательные переменные, которые могут быть бесполезны для меня при построении модели.

Из таблицы корреляции я обнаружил, что все переменные, которые я рассматривал для построения моей модели, коррелируют с ценовой переменной, поэтому с этого момента я перешел к построению модели.

ПОСТРОЕНИЕ МОДЕЛИ И ОЦЕНКА

В этом разделе мы рассмотрим различные модели, которые использовались в трех полученных нами наборах данных. Характеристики модели также оценивались с использованием различных показателей оценки, таких как средняя абсолютная ошибка (MAE), среднеквадратическая ошибка (MSE), оценка r2, матрицы путаницы и кривые ROC на основе выбранного алгоритма.

Предварительно обработанный набор данных был разделен на части, а именно части X и Y, которые далее были разделены на x_train, y_train, x_test и y_test. Часть X — это обучающий набор данных, который содержит все строки и все столбцы, кроме зависимого столбца, который необходимо спрогнозировать. Y — это тестовая часть набора данных, состоящая из зависимого столбца со всеми значениями строки. Теперь x_train и y_train — это части со всеми фактическими значениями, с которыми модель учится прогнозировать. x_test — это та часть, к которой модель применяется и дает прогнозный результат. y_test — это часть с фактическими прогнозируемыми значениями, с которыми прогнозируемые значения x_test сравниваются и оцениваются по таким показателям, как точность, прецизионность и т. д.

Как сообщалось ранее, я применил к этому набору данных методы линейной регрессии и случайного леса, поскольку они кажутся подходящими для набора данных. Функция линейной регрессии импортируется из пакета sklearn.linear_model, а случайный лес импортируется из пакета sklearn.ensemble. Модель строится на основе значений x_train и y_train, прогнозируется на основе значений x_test и сравнивается со значениями y_test. Обычный метод оценки, который использовался для линейной регрессии, - это баллы MAE, MSE и r2. MAE — это мера ошибок между парными наблюдениями, указывающими на одно и то же явление, а MSE — это мера среднего квадрата ошибок. А показатель r2 — это коэффициент детерминации, значение которого варьируется от 0 до 1. Я также могу сказать, что это отношение дисперсии зависимых признаков, полученных из независимых признаков. Когда линейная регрессия была применена к набору данных подержанных автомобилей, результат был следующим

Хотя набор данных хорошо сбалансирован, я получил оценку r2 34,2%, что указывает на то, что модель является плохой моделью с точки зрения показателей оценки.

Я также применил случайный лес к тому же набору данных, и мы уже знаем, что случайный лес также оценивается с использованием тех же показателей оценки, таких как оценки MSE, MAE и r2. Результат применения случайного леса выглядит как

Оценка r2 из алгоритма случайного леса показывает, что модель составляет 80,3%, что указывает на то, что модель является лучшей моделью. Я также сравнил обе модели, чтобы сделать вывод, какая из них лучше. Мой результат сравнения выглядит следующим образом

ВЫВОД

Сравнение показывает, что случайный лес имеет преимущество по сравнению с линейной регрессией при прогнозировании цен на подержанные автомобили.