Часть 1: Сбор данных и определение объема анализа

Этот проект направлен на анализ факторов, приводящих к задержкам коммерческих рейсов, и ориентирован конкретно на малые авиакомпании. Цель состоит в том, чтобы проанализировать исторические данные о полетах из Отчета о своевременной работе авиакомпании (с 2018 г. по настоящее время) Бюро транспортной статистики (BTS) [1], чтобы получить ценную информацию и в конечном итоге использовать эти знания для разработки модели машинного обучения, которая прогнозирует вероятность задержки рейсов.

Данные

Данные для этого анализа были получены из Бюро статистики транспорта. Это включало загрузку наборов данных за период с января 2018 года по апрель 2023 года. Наборы данных были объединены в единый комплексный файл, чтобы облегчить более оптимизированный анализ, называемый «комбинированные_данные».

Комбинированные_данные имеют 32 миллиона записей и 120 столбцов. Среди этих столбцов два были специально помечены как возможные прогнозируемые метки:

  • ArrDel15: В этом столбце рейсы делятся на две группы — задержанные (1) и не задержанные (0). Все рейсы с задержкой более пятнадцати минут считались задержанными и наоборот [2].
  • ArrDelayMinutes: в этом столбце указана точная продолжительность задержки рейса в минутах.

Остальные столбцы представляют собой факторы, которые могут влиять на задержки или коррелировать с ними. Они содержат как внутренние, так и внешние факторы, в том числе: причины задержек, сезонные факторы (месяцы, дни недели, годы и т. д.), эксплуатационные аспекты (включение и выключение колес, расписание рейсов, бортовые номера, и т. д.) и так далее.

Однако «комбинированные_данные» — очень большой файл для анализа. Поэтому было проведено исследование, чтобы определить, какие факторы оказывают сильное влияние на задержки. Семьдесят четыре столбца были исключены из набора данных, а сорок шесть столбцов сохранены для анализа данных и моделирования. После этапа ручного выбора функций новый файлкомбинированных_данных содержит 32 миллиона строк и 46 столбцов.

Кроме того, первоначальный анализ нового файла Combined_data показывает, что в 2020 году будет наименьшее количество задержек. Covid-19 может быть фактором, который привел к резкому сокращению количества рейсов в 2020 году, что привело к небольшому количеству задержек. По данным TranStats [2], количество задержек прилетов в 2020 году было вдвое меньше, чем в 2018, 2019, 2022 годах и прогнозируемых цифрах на 2023 год. При этом количество отмененных рейсов в 2020 году в четыре раза превысило показатели других лет в период. Это позволяет нам сделать вывод, что аномалии, наблюдавшиеся в 2020 году, вероятно, были связаны с влиянием COVID-19 на расписание полетов и операции. Включение 2020 года в обученную модель может повлиять на точность модели, поэтому окончательные данные для анализа данных и моделирования не включают данные за 2020 год. Новый файл комбинированных_данных включает 26 миллионов строк и 46 столбцов после шага выбора года.

Методология

Инструменты и методы

Недостаточные вычислительные ресурсы создавали проблемы при объединении файлов CSV после загрузки с BTS. Для решения этой проблемы были развернуты облачные вычисления и сервер MySQL. 64 файла CSV были загружены в MySQL с помощью dBeaver. Для визуализации данных было установлено соединение между Tableau и MySQL. Шаг выбора данных был обработан в Google Colab. Другие инструменты, которые использовались на протяжении всего проекта:

  • Среда разработки: ноутбук Jupiter
  • Библиотека Python: Scikit-learn, Pandas, NumPy, Matplotlib, Plotly.
  • Инструмент BI: Таблица
  • Контроль версий: Git, GitHub
  • База данных: MySQL, dBeaver.

Подход исследовательского анализа данных

Подход к моделированию данных

В разделе 1.3.1 описаны две потенциальные прогнозирующие метки: ArrDel15 и ArrDelMinutes. Для ArrDel15 модели классификации направлены на прогнозирование вероятности задержек, а для ArrDelayMinutes модели регрессии используются для прогнозирования продолжительности в минутах. Эти два ярлыка предполагают разные подходы к моделированию; однако оба используют технику обучения под учителем.

В этом проекте прогнозной целью был ArrDel15, поэтому использовались модели классификации, в том числе: Gradient Boosting, Random Forest, Decision Tree, AdaBoost. Для обучения модели был выбран набор признаков на основе их корреляции с меткой. Были выбраны важные функции, которые имеют наибольшую корреляцию с ArrDel15 на тепловой карте корреляции (рис. 1). Кроме того, используются две матрицы оценки, включая матрицу точности и матрицу неточности (используются точность и полнота).

Выбор авиакомпании

Был проведен анализ для расчета среднего количества рейсов в месяц каждой авиакомпании из набора данных в 2018, 2019, 2021, 2022 и 2023 годах. Согласно информации, предоставленной Крисом МакНилом, авиакомпании с более чем 20 000 рейсов в месяц являются крупными авиакомпаниями и наоборот. Таким образом, авиакомпании в наборе данных были разделены на три основные группы:

  • Крупные авиакомпании (20 000 рейсов в месяц): Southwest Airlines (WN), Delta Air Lines (DL), American Airlines (AA), SkyWest Airlines (OO), United Airlines (UA), Republic Airways ( YX), Envoy Air (MQ), JetBlue Airways (B6).
  • Малые авиакомпании (‹20 000 рейсов в месяц):

Региональные/грузовые авиакомпании: Endeavour Air (9E), PSA Airlines (OH), Mesa Airlines (YV), Horizon Air (QX), West Atlantic (PT), Air Wisconsin (ZW), GoJet Airlines. (G7), Commute Air (C5), Empire Airlines (EM), PenAir (KS), Cape Air (9K).

Небольшие авиакомпании: Alaska Airlines (AS), Spirit Airlines (NK), Frontier Airlines (F9), Allegiant Air (G4), Hawaiian Airlines (HA).

  • Авиакомпании, прекращенные Trans States Airlines (AX — 2020 г.), Virgin America (VX — 2018 г.), Compass Airlines (CP — 2020 г.), ExpressJet Airlines (EV — 2020 г.).

Проект ориентирован только на небольшие авиакомпании, поскольку они являются целевыми клиентами нашего клиента.

Продолжить чтение

Часть 2:

Часть 3:

Ссылка:

[1] Соблюдение графика работы маркетингового оператора (начало января 2018 г.). Бюро транспортной статистики, www.transtats.bts.gov/DL_SelectFields.aspx?gnoyr_VQ=FGK&QO_fu146_anzr=. По состоянию на 27 августа 2023 г.

[2] Шонланд, Аддисон. Ценность времени для авиакомпании | ЭйрИнсайт. 13 февраля 2023 г., airinsight.com/the-value-of-time-for-an-airline/. По состоянию на 28 августа 2023 г.