Около 2 лет назад мне поручили составить множественный регрессионный анализ для курса статистики в университете. Мы могли свободно выбирать любое программное обеспечение, которое хотели, поэтому я решил использовать свои недавно приобретенные навыки R для статьи.

Фон

Проект американских горок начинается с истории о том, как Джон Уордли, отмеченный наградами концептуальный дизайнер тематических парков и американских горок, включая Nitro и Oblivion, собирался впервые испытать американские горки Nemesis. Он спросил Уолтера Боллигера, президента производителя подставок B&M: «Что, если подставка заглохнет? Как мы вернем поезда на станцию?» Боллиджер ответил: «Наши подставки никогда не останавливаются. Они всегда отлично работают с первого раза». И это работало отлично. Знатоки американских горок знают, что компания Bolliger & Mabillard Consulting Engineers, Inc. (B&M) создала одни из самых инновационных американских горок. Компания была основана в конце 1980-х годов, когда Вальтер Боллигер и Клод Мабийяр покинули компанию Intamin AG, где они разработали первые стоячие горки компании. B&M построила свою репутацию на инновациях. Они разработали первые «перевернутые» американские горки, в которых поезд движется под рельсами с сиденьями, прикрепленными к колесной тележке, и впервые представили «водолазные машины» с вертикальным падением, впервые представленные в Oblivion. Подставки B&M известны среди энтузиастов особенно плавным ходом, надежностью, простотой обслуживания и отличными показателями безопасности. В отличие от некоторых других производителей, B&M не использует моторные катера, предпочитая, как и многие знатоки каботажных судов, каботажные суда с гравитационным двигателем. B&M является международным лидером в области дизайна американских горок, спроектировав 24 из 50 лучших стальных американских горок в списке Golden Ticket Awards 2009 и 3 из 10 лучших в 2013 году.

Тематические парки — это крупный бизнес. Только в Соединенных Штатах насчитывается около 500 тематических парков и парков развлечений, которые приносят более 10 миллиардов долларов дохода в год. Промышленность США достаточно развита, но парки в остальном мире все еще растут. Европа теперь зарабатывает более 1 миллиарда долларов в год от своих тематических парков, а индустрия Азии быстро растет. Хотя тематические парки начали диверсифицироваться, включая аквапарки и зоопарки, аттракционы по-прежнему являются главной достопримечательностью большинства парков, и в центре аттракционов находятся американские горки. Инженеры и дизайнеры соревнуются, чтобы сделать их больше и быстрее. Двухминутной поездки на самых быстрых и лучших американских горках поклонники будут ждать часами. Можем ли мы узнать, что делает американские горки быстрыми? Каковы наиболее важные конструктивные соображения при создании самой быстрой подставки?

Данные

Исходный набор данных содержит 16 переменных, и для некоторых из них даны краткие описания:

  • Трек указывает, какой тип трека у американских горок. Возможные значения: «Дерево» и «Сталь».
  • Продолжительность — это продолжительность поездки в секундах.
  • Скорость – это максимальная скорость в милях в час.
  • Высота — это максимальная высота над уровнем земли в футах.
  • Падение – это наибольшее падение стопы.
  • Длина — это общая длина гусеницы в футах.
  • Inversions сообщает, переворачиваются ли гонщики вверх ногами во время поездки. Он имеет значения 1 (да) и 0 (нет). Некоторые подставки имеют несколько инверсий.

Цель

Цель этого анализа состоит в том, чтобы проанализировать, как скорость каботажного судна связана с другими свойствами каботажного судна. Кроме того, я стараюсь разрабатывать модели прогнозирования, предоставляя интерпретации, чтобы связать процесс моделирования.

Инструменты

R будет использоваться в качестве основного программного обеспечения вместе с такими пакетами, как Caret, dplyr и Corrplot.

Исследовательский анализ данных (EDA)

Прежде чем погрузиться в исследовательский анализ данных, я подготовил данные, обработав пропущенные значения, удалив повторяющиеся строки и обработав выбросы.

Этот EDA разделен на две части: EDA для количественных переменных и EDA для качественных переменных.

  1. EDA для количественных переменных: пакет corrplot используется для создания графика корреляции, который визуализирует силу корреляций (положительных/отрицательных) между количественными переменными.

Матрица парных корреляций также напечатана ниже для тех, кто интересуется числовыми особенностями корреляций.

Результаты: Поскольку целевой переменной является скорость, интерпретация взаимосвязей между переменными будет основываться на скорости.

  • Высота демонстрирует сильную положительную линейную зависимость от скорости (коэффициент корреляции = 0,91423320). Поскольку его коэффициент корреляции является самым высоким, это указывает на то, что рост будет наиболее значимым предиктором скорости.
  • Длина показывает сильную положительную линейную связь со скоростью (коэффициент корреляции = 0,72175528).
  • Продолжительность имеет умеренную положительную линейную зависимость от скорости (коэффициент корреляции = 0,43499920).
  • Numinversions имеет слабую положительную линейную связь со скоростью (коэффициент корреляции = 0,35334778).
  • Открытый показывает практически отсутствие связи со скоростью (коэффициент корреляции = -0,01563838).

Большинство результатов имеют смысл, поскольку можно ожидать, что такие факторы, как максимальная высота над уровнем земли в футах и ​​продолжительность поездки, будут определять (максимальную) скорость американских горок. Точно так же можно ожидать, что год открытия американских горок мало повлияет на их максимальную скорость. Интересным открытием является то, что числовые версии имеют слабую положительную линейную связь со скоростью. Когда американские горки заканчивают инверсию, они обычно ускоряются (из-за силы тяжести и инерции).

2. EDA для качественных переменных:

Поскольку скорость является целевой переменной, она будет перекодирована в категориальную переменную с помощью функции вырезания. Скорость колеблется от 9,72 миль в час до 194,4 миль в час. Таким образом, будет применен аргумент разрыва, поэтому скорость будет разделена на 5 классов — очень медленная, медленная, умеренная, быстрая и очень быстрая. Каждый класс группируется в соответствии с шагом 37 миль в час. Печатается сводка — 153 наблюдения попадают в «Очень медленно», 162 — в «Медленно», 78 — в «Умеренно», 8 — в «Быстро» и 2 — в «Очень быстро».

Результаты (оценка по скорости):

  • Конструкция: американские горки со стальными гусеницами имеют большую долю как очень быстрых, так и очень медленных американских горок. С другой стороны, американские горки с деревянными гусеницами составляют большую часть американских горок со средней скоростью. Кроме того, как минимум половина американских горок с деревянными дорожками относится к категории «Умеренная» (скорость). В целом, наиболее важным открытием является то, что американские горки со стальными гусеницами могут использоваться как для очень быстрых, так и для очень медленных американских горок. Также указано, что стальные гусеницы ускоряют американские горки.
  • Инверсии: наиболее важным открытием является то, что американские горки без инверсий приводят к большей доле очень быстрых американских горок. Как уже говорилось ранее, американские горки без инверсий также приводят к большей доле очень медленных американских горок. В целом, эти результаты дополняют результат графика корреляции из раздела 3.1.
  • Регион: важным открытием является то, что в Северной Америке самая высокая доля очень быстрых и быстрых американских горок и самая низкая доля очень медленных американских горок. В Европе самая большая доля очень медленных американских горок. Далее более 50% американских горок из Европы попали в класс «Очень медленные». Это может указывать на корреляцию между регионом и скоростью.

Модели прогнозной регрессии для скорости с использованием пакета вставки

Я создал функцию для кодирования переменных-флагов для категориальных переменных перед созданием нового набора данных, состоящего из исходных количественных переменных и переменных-флагов.

Функция предварительной обработки (из пакета Caret) используется для предварительной обработки набора данных. Набор данных также будет разделен на набор для обучения (75%) и набор для тестирования (25%).

  1. Модель линейной регрессии (с 5-кратной перекрестной проверкой):

Результат: эта модель линейной регрессии имеет RMSE чуть выше 10 и высокий Rsquared. 4 наиболее значимых предиктора (в порядке убывания ранга): высота, длина, инверсии флагов и конструкция флагов. Последовательность и количество предикторов этой модели идентичны выводам модели линейной регрессии, сгенерированной без использования курсора.

2. Модель регрессии KNN (с 5-кратной перекрестной проверкой и пакетом kknn):

Результат: регрессионная модель KNN имеет RMSE около 12 и умеренно высокий Rsquared. Поскольку эта модель регрессии KNN дает более высокое значение RSME и более низкое значение Rsquared по сравнению с моделью линейной регрессии, модель линейной регрессии лучше подходит между ними.

3. Модель дерева регрессии CART (с 5-кратной перекрестной проверкой):

Результат: эта регрессионная модель CART имеет RMSE ниже, чем у регрессионной модели KNN, но выше, чем у модели линейной регрессии. Значение Rsquared здесь выше, чем у модели регрессии KNN, но ниже, чем у модели линейной регрессии. Это означает, что модель линейной регрессии лучше всего подходит среди трех моделей.

Сравнение производительности регрессионных моделей, построенных с помощью Caret

В целом модель линейной регрессии считается лучшей (наиболее точной) моделью для прогнозирования скорости. Это связано с тем, что он имеет самые низкие значения RSME и самые высокие значения Rsquared среди трех моделей регрессии. Интересно, что первый точечный график показывает, что изменчивость, основанная на RSME и уровне достоверности 0,95, примерно одинакова. Второй точечный график Rsquared показывает, что модель линейной регрессии имеет наименьшую изменчивость, что может свидетельствовать о том, что она менее чувствительна к данным/изменениям. Все значения Rsquared, основанные на доверительном уровне 95%, ниже 1, что является хорошим признаком.

Модели прогнозной классификации для скорости с использованием пакета каретки

Набор данных снова разделен с помощью пакета вставки, а переменные флага включены как в наборы для обучения, так и в наборы для тестирования.

  1. Модель классификации KNN (с 5-кратной перекрестной проверкой):

Результат: Значения Точности и Каппа использовались для выбора окончательного значения k=3 для оптимальной модели. Это подтверждается тенденцией, наблюдаемой на графике точности против нет. ближайших соседей, поддерживая идею о том, что точность является самой высокой, когда k = 3.

2. Взвешенная модель классификации KNN (с 5-кратной перекрестной проверкой)

Для этой модели создается сетка гиперпараметров для kknn с kmax = 5.

Результат: модель взвешенной классификации KNN имеет более низкую точность и значения каппа, чем модель классификации KNN (при k=3). Это указывает на то, что модель классификации KNN пока лучше подходит.

3. Модель классификации корзины (с 5-кратной перекрестной проверкой):

Результат: Модель классификации CART на данный момент имеет самые высокие значения точности и каппа. Это указывает на то, что модель классификации CART в настоящее время является наиболее точной моделью для прогнозирования скорости.

4. Модель классификации C5.0 (с 5-кратной перекрестной проверкой):

Пакет C50 используется для обучения дерева классификации C5.0.

Результат: модель C5.0 занимает второе место по точности и значениям каппа по сравнению с остальными моделями классификации, построенными с использованием Caret. Высота, длина и регион являются наиболее важными предикторами скорости в этой модели.

Сравнение производительности для моделей классификации, построенных с использованием знака вставки

Точечный график выше показывает, что дисперсия CART является наименьшей. Это также показывает, что точность CART самая высокая.

Проверка предположений модели

Поскольку предполагается, что CART является наиболее точным в прогнозировании скорости, предположения модели для этой конкретной модели будут проверены. Единственное предположение, сделанное деревьями решений, состоит в том, что данные независимо и одинаково распределены (iid). Поскольку все американские горки уникальны, ожидается, что скорость одних американских горок не будет зависеть от скорости других американских горок, и можно предположить, что каждая переменная имеет то же распределение вероятностей, что и другие, можно предположить, что выполняется предположение iid.

Сравнение лучших моделей из каждой техники лепки:

При использовании каретки линейная модель будет лучшей моделью регрессии для прогнозирования скорости, а модель CART будет лучшей моделью классификации. Четыре наиболее значимых предиктора для модели линейной регрессии — это (в порядке убывания ранга) высота, длина, flag_inversions и flag_construction. Четыре наиболее значимых предиктора для модели классификации CART — это (в порядке убывания ранга) высота, длина, продолжительность и числовые версии.

Заключение:

Самый важный вывод, сделанный при построении и оценке различных моделей, заключается в том, что рост и длина всегда являются наиболее значимыми предикторами скорости, независимо от используемой модели. Этот вывод будет особенно полезен для производителей американских горок, которые хотят знать, на какие переменные следует обратить внимание, чтобы производить самые быстрые американские горки для любителей горок. Продолжительность, наличие инверсий, количество инверсий и материал, используемый для изготовления дорожек, также являются важными факторами проектирования, которые следует учитывать.

Надеемся, что эта статья предоставила информацию и/или другой взгляд на использование курсора для множественного регрессионного анализа. Размышляя над этим проектом, я вспоминаю, что, хотя всегда можно использовать базовый R и другие пакеты для множественного регрессионного анализа, всегда полезно расширять наборы инструментов для аналитической практики.

Ресурсы