После ухода с тогдашнего крупнейшего автомобильного рынка в мире в 1989 году французский автопроизводитель Citroën изучает возможность возвращения на рынок США. Хотя автомобили Citroën имеют необычный дизайн, который может понравиться покупателям автомобилей, которые хотят чего-то другого, в конечном итоге автомобили не будут продаваться исключительно из-за их эксцентричного стиля. Citroën необходимо будет разработать комплексную стратегию продаж, которая включает понимание автомобильного ландшафта США и правильную оценку своих автомобилей.

Большой вопрос

Основываясь на ценах, технических характеристиках и характеристиках автомобилей, продаваемых в США, как Citroën должен оценивать свои автомобили?

Ограничения и предположения для MVP

Этот анализ будет сосредоточен на рекомендованной розничной цене (рекомендованной производителем розничной цене) и не будет учитывать фактическую отпускную цену, наличие стимулов и фактические показатели продаж. Он будет учитывать ряд характеристик, связанных с размером и характеристиками (внутренние и внешние размеры, детали двигателя и трансмиссии, а также экономия топлива), а также ограниченное количество функций (материал обивки сиденья, наличие люка на крыше и размер колес). Он не будет рассматривать варианты и настройки, а будет включать только стандартные функции. Наконец, сравнение будет сделано только с одним из автомобилей Citroën - C3.

Предварительный анализ

В Европе прямым конкурентом Citroën C3 являются такие автомобили, как Ford Fiesta, Toyota Yaris и Mini Cooper. В США эти автомобили (и другие прямые конкуренты) имеют базовую цену от 13 000 до 21 000 долларов. Разумно ожидать, что хорошая модель будет стоить базовую комплектацию Citroën C3 в этом диапазоне.

Сбор данных

Чтобы получить все необходимые данные для построения регрессионной модели, я использовал Requests и Beautiful Soup для очистки данных с Cars.com и собрал технические характеристики и характеристики 2018 модельного года для каждого уровня отделки каждой модели (например, Honda Fit LX 2018 года). . Это произвело 3968 столбцов данных по 2611 обрезкам.

Очистка данных и извлечение функций

Многие столбцы с числовыми данными содержали лишние слова и символы, которые я удалил. Более сложной частью этого шага были столбцы, которые действительно содержали данные для одной и той же функции. Например, данные о материалах обивки сидений были распределены по 116 столбцам с такими названиями, как «Кожаная обивка передних и задних сидений Bridge of Weir» и Имитационная замшевая обивка передних и задних сидений ». Я использовал регулярные выражения для извлечения фактического материала (кожи и замши соответственно) и объединил его в одну категориальную характеристику.

Выбор функций

После очистки данных у меня был следующий список возможностей:

Переменная ответа: MSRP

Непрерывные функции:

  • # Мест
  • # Двери
  • Объем двигателя
  • Емкость батареи
  • Horspower
  • Крутящий момент
  • Объем груза
  • Пассажирский объем
  • Размер колеса
  • Дорожный просвет
  • Колесная база
  • Длина
  • Ширина
  • Высота
  • Комбинированный MPG
  • Город MPG
  • Шоссе MPG

Категориальные особенности:

  • Трансмиссия
  • Тип двигателя
  • Стремление
  • Передача инфекции
  • Обивка сиденья
  • Люк на крыше

Тепловая карта корреляции (а также парный график) указали на потенциальное присутствие мультиколлинеарности между комбинированными MPG, Highway MPG и City MPG, коллинеарность между длиной и колесной базой и взаимодействие между лошадиными силами и крутящим моментом. Дальнейший анализ показал, что действительно существует мультиколлинеарность характеристик MPG, а также коллинеарность между длиной и колесной базой. Однако, несмотря на то, что между мощностью и крутящим моментом действительно существует некоторая корреляция, учет их потенциального взаимодействия снижает прочность получаемых моделей. Итак, я удалил City MPG, Highway MPG и Wheelbase из окончательного списка функций и оставил комбинированные MPG и длину.

Построение и оптимизация моделей

Используя StatsModels, scikit-learn, я итеративно построил и протестировал несколько моделей линейной регрессии и оценил их производительность с помощью показателей и RMSE.

Модель 1:

Это базовая модель линейной регрессии OLS, которая включает в себя все функции и комплектацию всех автомобилей. График фактических и прогнозируемых значений и график остатков показывают, что это не очень хорошее совпадение.

Модель 2:

Это модель линейной регрессии OLS с удаленными выбросами. Выбросы определялись как автомобили с MSRP больше или меньше трех стандартных отклонений от среднего. Это означало, что автомобили с рекомендованной розничной ценой более 164 112 долларов были удалены. Выбор двух стандартных отклонений удалил бы ряд дорогих автомобилей, которые не следует рассматривать как выбросы (например, высшие уровни отделки салона Tesla Model X). Удаление выбросов не оказало большого влияния на значение , но снизило RMSE примерно на 40%.

Модель 3:

После безуспешного применения различных преобразований к нескольким функциям, я применил преобразование журнала к переменной ответа (MSRP). Как показано на графиках ниже, аппроксимация резко улучшилась, и, хотя график остатков показывает гетероскедастичность, он больше не имеет четкой кривой.

Модель 4:

Чтобы попытаться улучшить соответствие, я применил обратное исключение для последовательного удаления элементов на основе порогового значения p 0,05.

Последовательно устранены следующие особенности:

  • Двигатель: Inline-3 (p = 0,619)
  • Стремление: Турбо (p = 0,343)
  • Двигатель: Flat-4 (p = 0,307)
  • Емкость аккумулятора (p = 0,247)
  • # Двери (p = 0,251)

Получившаяся модель была очень похожа, но немного хуже, чем простое преобразование журнала переменной ответа ( и RMSE).

Модель 5:

Чтобы проверить, можно ли исключить какие-либо другие функции, я взял набор функций после обратного исключения и применил регрессию Лассо. Используя GridSearchCV с пятью складками, было выбрано значение альфа 1e – 5. Полученная регрессия была почти идентична результатам обратного исключения.

Модель 6:

Чтобы проверить, как Лассо будет штрафовать коэффициенты до того, как я проведу обратное исключение, я подобрал набор функций из Модели 3 к модели регрессии Лассо. Используя GridSearchCV с пятью складками, была выбрана альфа 1e-9. Это привело к тому же , что и Модель 3, но с немного лучшим RMSE на тестовой выборке.

Выводы

Два шага, которые привели к наиболее значительным улучшениям, - это удаление выбросов (улучшение RMSE) и применение преобразования журнала к переменной ответа (улучшение ). Основываясь на приведенных выше результатах, я выбрал Модель 6. Несмотря на то, что все модели 3–6 дали очень похожие результаты, Модель 6 устраняет необходимость ручного выполнения обратного исключения при добавлении дополнительных функций в будущем.

Citroën C3 в США

Модель 6 прогнозирует, что базовая цена Citroën C3 должна составлять 17 119 долларов, что помещает его прямо в середину диапазона от 13 000 до 21 000 долларов для сопоставимых автомобилей. Фактическая цена Citroën C3 в Великобритании составляет 11560 фунтов стерлингов, что эквивалентно 16 103 долларам США по курсу 1 фунт стерлингов = 1,38 доллара США. Это представляет собой разницу в 1016 долларов США, или 6,31%.

Дальнейшие действия

  • Поскольку этот анализ учитывает очень мало функций, добавление таких функций, как детали информационно-развлекательной системы, типы ламп фар, типы люков (например, панорамный), а не только наличие, классы обивки сидений (например, кожа Nappa или кожзаменитель) и функции автономного вождения должны помочь снизить гетероскедастичность.
  • Рассмотрите возможность удаления более дорогих автомобилей. Самый дорогой автомобиль Citroën стоит около 40 000 долларов, и, возможно, нецелесообразно включать автомобили стоимостью более 100 000 долларов.
  • Изучите другие модели. Предварительная модель случайного леса выглядит многообещающей ( 0,92).
  • Рассмотрим сегменты, к которым относятся автомобили. Но по мере того, как популярность кроссоверов растет, и становится все труднее точно классифицировать автомобили, было бы интересно посмотреть, как модель классификации будет разделять автомобили на разные сегменты.
  • Спрогнозируйте оптимальный набор функций для каждого уровня отделки салона.
  • Получите информацию о продажах (количество проданных автомобилей, статистику продажных цен и т. Д.) И соответствующим образом скорректируйте цены и характеристики.