Когда вы должны планировать свой следующий отпуск в тематическом парке, чтобы избежать скопления людей?

Я признаю, что в детстве, хотя мне нравились фильмы Диснея не меньше, чем обычному американскому ребенку, и мне посчастливилось побывать и в парках Диснея, и в круизах, я не обязательно был большим фанатом Диснея. Ситуация изменилась после того, как я переехал в школу в Санкт-Петербурге, штат Флорида, в 2010 году. Моя подруга сказала, что хочет навестить меня, и что она хотела бы поехать в Диснейуорлд, поэтому я ответил: «Конечно, позвольте мне посмотреть, как далеко. это." После этого дела пошли быстро. Я обнаружил, что «Мир Уолта Диснея» находился менее чем в полутора часах езды от моего дома, мой друг прилетел в гости, мы ходили в парки, и я сразу не мог насытиться всем, что есть в Диснее. Я подписался на годовой абонемент в Мир Уолта Диснея и использовал любую возможность, которую мог; Я убедил друзей, с которыми я потерял связь, прийти в гости, чтобы мы могли обходиться дешево, и я начал читать любые материалы, которые я мог найти, о фильмах Диснея, тематических парках, круизных лайнерах и обо всем, что связано с компанией. Мне посчастливилось иметь родителей, которые были членами Клуба отдыха Диснея и были щедры на проживание в отелях, и я даже нашел очень близкого друга, который полюбил парки так же сильно, как и я (мы вдвоем ездили много, много , много раз, и у нас еще не было плохого или повторного опыта). Все это привело к тому, что я приобрел годовой абонемент в течение нескольких лет, а количество дней, которые я провел в «Мир Уолта Диснея», сократилось до трехзначного числа.

Спустя некоторое время моя новообретенная зависимость от Диснея стала общеизвестной среди тех, кто был рядом со мной, и независимо от того, был ли я свободен и мог ли я ходить с ними в парки или нет, я был основным планировщиком каникул Диснея, что, конечно, Я любил и продолжаю любить, когда могу и просил. Итак, перейдя ко второй неделе и проекту 2 моего обучения науке о данных в Metis, когда мне было поручено создать прогнозирующую модель линейной регрессии с использованием любого материала, который я хотел, я сразу же подумал о том, чтобы пойти в Disney. Поэтому я решил проверить, могу ли я использовать компьютерную модель для прогнозирования уровня толпы в тематическом парке Диснея.

Я начал с выбора функций, которые, по моему мнению, могут быть важны для определения загруженности парка, например, день недели, месяц, было ли мероприятие в парке или национальный праздник, часы работы парка. , и погода. В дополнение к этой информации я также хотел включить данные, которые модель могла бы использовать для различения парков, например, количество ресторанов и стоимость еды, интенсивность аттракционов и возраст каждого парка. Наконец, мне удалось отследить архив исторических уровней толпы для всех 6 тематических парков Диснея в США, начиная с 2009 года. И со всей этой информацией в руках я был готов приступить к моделированию !! [Я считаю, что в настоящее время может быть разумным сказать, что эти данные использовались исключительно в образовательных целях во время моего обучения в аккредитованном учреждении и не были и никогда не будут использоваться для финансовой выгоды для меня или других лиц. Пожалуйста, не подавайте на меня в суд!]

Мой первый шаг в моделировании заключался в том, чтобы взять все собранные мной данные и найти ложную информацию, распределение уровней толпы и любые отношения между функциями, которые могли испортить мою модель (в частности, я удалял точки данных, которые могли быть потенциальным вводом данных. или ошибки сбора данных, ошибки, которые могли быть артефактом моих скриптов парсинга, гарантирующие, что моя целевая переменная была нормально распределена, и подтверждение того, что между входами не было никакой коллинеарности, но это действительно не имеет большого значения) . Получив чистые и надежные данные, я подключил их к базовой обычной модели линейной регрессии методом наименьших квадратов и обнаружил, что моя неочищенная точность прогнозов в порядке, но невысока (скорректированный R² = 0,346 для тех, кто действительно хотел бы знать).

Затем я использовал метод LASSO с 5-кратной перекрестной проверкой, чтобы помочь мне исключить функции, которые, как он считал, не очень важны для прогнозирования уровней толпы, и повторно обработал свои данные, исключая функции, выделенные LASSO, обратно через базовую линейную регрессии, а также регрессии LASSO и Ridge для применения нормализации, но общее улучшение было минимальным (приводящее к окончательному R² = 0,353 по сравнению с данными испытаний, полученными до того, как я подобрал модель, 20% от моих общих данных).

Хорошо, теперь у меня есть модель, которая изо всех сил пытается предсказать толпу, но не делает этого очень хорошо, поэтому я вернулся к информации, которую дал мне LASSO, включая график слева (LARS PATH), который в основном показывает, насколько важной, по мнению модели, является каждая функция для прогнозирования уровня толпы. Некоторые входные данные, которые он исключил или присвоил очень низкое значение, были ожидаемыми, например, определенный день недели или определенный месяц года, но были некоторые низкие значения (так называемые коэффициенты), которые меня очень удивили. На этом этапе я сделал шаг назад и пересмотрел свою модель и свой подход к проблеме. Если я могу взглянуть на данные и придумать в своей голове более точный прогноз, чем моя модель, мне нужно спросить себя, что именно я использую для оценки толпы, которой не соответствует моя модель? По сути, что я, как специалист по данным, не могу предоставить свою модель?

Ответ, который я придумал, был Знание предметной области. Я понял, что когда я смотрю на данные, я фактически меняю способ использования каждой из функций в зависимости от того, на какой парк я смотрю; Я изменяю вес, который я придаю каждому входу, тогда как модель вынуждена выбирать одну взаимосвязь, которая лучше всего подходит для всех парков (она присваивает один фиксированный коэффициент каждой функции). Например, по опыту и исследованиям я знаю, что посещаемость парков в Калифорнии в значительной степени определяется местными жителями или людьми, которые ездят в парки, тогда как среди посетителей Walt Disney World абсолютно преобладают туристы, которые прилетают со всех концов света. мир. Поэтому, если вы планировали поехать в Диснейленд в Анахайме на однодневную поездку и услышали, что будет дождь, возможно, вы все равно поедете, но, возможно, вы бы отложили день, неделю или даже месяц, пока погода не улучшится. будет лучше. Но если вы летели в Орландо из Австралии, чтобы отправиться в Волшебное Королевство или Эпкот, и слышали, что идет дождь, вы, вероятно, не собираетесь отменять билеты на рейс, в отель и парк, скорее всего, вы бы сделали это. по-прежнему идите и извлекайте из этого максимум пользы. Другими словами, на самом деле интуитивно понятно, что моя прогностическая модель получала смешанные сигналы из данных, которые я ей скармливал.

Итак, я вернулся к началу. Я взял свой 1 большой набор данных из 16 000 исторических уровней толпы, разделил его на 6 отдельных наборов данных и разработал 6 отдельных прогнозных моделей, по 1 для каждого парка. Я сразу заметил улучшение. Когда в моей модели больше не требовалось различать парки, и я смогла сосредоточиться исключительно на Диснейленде, моя точность прогнозов немного повысилась (R² = 0,561 по сравнению с предыдущими 0,353 для 6 парков вместе). Имея дополнительное время, я невероятно уверен, что смогу усовершенствовать свои модели и что возможности прогнозирования увеличатся за счет экспериментов с различными структурами моделей, а также потенциальных преобразований и регуляризации.

Так что все это значит? Во-первых, это означает, что если вам посчастливилось иметь доступ к сложной компьютерной модели, которая поможет в планировании отпуска в тематическом парке, мои усилия предполагают, что вам следует рассматривать каждый парк индивидуально, чтобы максимально повысить точность прогнозов. Еще один довольно интересный вывод: работая со всеми шестью моими единственными моделями тематических парков, я обнаружил, что наиболее важным фактором при определении уровня толпы в каждом случае было количество рабочих часов парка в интересующий день. Так что в следующий раз, когда вы планируете свой день в тематическом парке и хотите выяснить, когда поехать, чтобы избежать долгих ожиданий, чтобы сесть на аттракционы, вместо того, чтобы ползать по архиву исторических уровней толпы, просматривая все входящие -паркуйте даже календари и изучите долгосрочные прогнозы погоды, ваш первый шаг и, возможно, даже единственный шаг, вероятно, должен заключаться в том, чтобы перейти на официальный сайт Диснея и посмотреть, каковы будут их опубликованные часы, потому что если у них есть расширенные часы, то они, вероятно, ожидают больших толп, и тогда вы должны.