Данные временных рядов — это тип данных, в которых наблюдения записываются за определенный период и индексируются на основе времени. Анализ данных временных рядов имеет решающее значение во многих отраслях, включая финансы, экономику и здравоохранение. Kaggle, популярная платформа для соревнований по науке о данных, провела несколько соревнований на основе временных рядов, которые дают ученым прекрасную возможность продемонстрировать свои навыки и изучить новые концепции. В этом блоге мы обсудим некоторые из лучших соревнований Kaggle, основанных на временных рядах, и то, как они могут помочь вам изучить различные концепции.

  1. Конкурс M5 Forecasting — Accuracy: этот конкурс, организованный Walmart, был направлен на прогнозирование ежедневных продаж 3049 продуктов в 10 магазинах в течение 28 дней. Участники должны были прогнозировать продажи каждого продукта на каждый день конкурса, используя исторические данные о продажах, предоставленные Walmart. Это соревнование научило участников тому, как работать с большим набором данных с множеством функций и как использовать различные методы прогнозирования временных рядов, такие как ARIMA и Prophet.
  2. Соревнование по продажам в магазинах Rossmann: это соревнование было направлено на прогнозирование ежедневных продаж в 1115 магазинах Rossmann, расположенных в Германии. Участники должны были спрогнозировать продажи на следующие шесть недель с учетом таких факторов, как рекламные акции, школьные каникулы и закрытие магазинов. Это соревнование научило участников, как работать с отсутствующими данными и как включать внешние факторы, такие как праздники и рекламные акции, в модели прогнозирования временных рядов.
  3. Конкурс Santa’s Workshop Tour 2019. Этот конкурс был направлен на оптимизацию доставки рождественских подарков миллионам детей по всему миру с использованием методов оптимизации временных рядов. От участников требовалось разработать алгоритм, оптимизирующий доставку подарков с учетом таких факторов, как погодные условия, текущий вес и местонахождение пункта назначения. Этот конкурс научил участников, как использовать методы оптимизации для решения задач временных рядов.
  4. The Zillow Prize — конкурс Zillow по прогнозированию стоимости жилья. Этот конкурс был направлен на прогнозирование цен продажи домов в Соединенных Штатах в течение определенного периода времени. Участники должны были спрогнозировать цены продажи домов на следующие несколько месяцев на основе исторических данных о ценах на жилье и других факторов, таких как уровень безработицы и ставки по ипотечным кредитам. Это соревнование научило участников, как использовать передовые методы прогнозирования временных рядов, такие как LSTM и XGBoost, и как включать внешние факторы в модели временных рядов.
  5. Соревнование Recruit Restaurant Visitor Forecasting: это соревнование было направлено на прогнозирование количества посетителей сети ресторанов в Японии на основе таких данных, как бронирование, дата и время. Участники должны были спрогнозировать количество посетителей на каждый день периода конкурса, используя исторические данные, предоставленные сетью ресторанов. Этот конкурс научил участников тому, как работать с данными временных рядов с нерегулярной выборкой и как использовать передовые методы прогнозирования временных рядов, такие как нейронные сети.
  6. Соревнование по прогнозированию продаж продуктовых магазинов Corporación Favorita: целью этого конкурса было прогнозирование продаж сети продуктовых магазинов в Эквадоре на период 16 недель. От участников требовалось спрогнозировать продажи 54 товаров для каждого магазина продуктовой сети с учетом таких факторов, как акции, праздники и закрытие магазинов. Это соревнование научило участников тому, как работать с данными с разной степенью детализации во времени и как включать внешние факторы в модели временных рядов.
  7. Соревнование GE Flight Quest II — Turbulence Prediction: это соревнование было направлено на прогнозирование силы турбулентности, с которой сталкиваются коммерческие самолеты во время полетов. От участников требовалось разработать алгоритм, предсказывающий турбулентность, с которой сталкиваются самолеты во время полетов, на основе данных о погоде и атмосфере. Этот конкурс научил участников, как использовать методы временных рядов для прогнозирования событий, зависящих от времени, и как включать внешние факторы в модели временных рядов.
  8. Соревнование по спросу на совместное использование велосипедов: это соревнование было направлено на прогнозирование количества велосипедов, необходимого для удовлетворения спроса системы проката велосипедов в Вашингтоне, округ Колумбия. Участники должны были прогнозировать количество прокатов велосипедов на каждый час дня на основе исторических данных. от погодных условий, праздников и других факторов. Этот конкурс научил участников тому, как бороться с сезонностью в данных временных рядов и как использовать различные методы прогнозирования временных рядов, такие как ARIMA и Prophet.
  9. Соревнование по прогнозированию временных рядов веб-трафика. Это соревнование было направлено на прогнозирование ежедневных просмотров страниц статей Википедии из разных стран и языков. Участники должны были спрогнозировать количество просмотров каждой статьи на следующие два месяца с учетом таких факторов, как день недели и праздники. Этот конкурс научил участников, как работать с разреженными и зашумленными данными временных рядов и как использовать передовые методы прогнозирования временных рядов, такие как глубокое обучение и ансамбли.
  10. Соревнование по прогнозированию энергопотребления. Целью этого конкурса было прогнозирование потребления электроэнергии 370 зданиями различных отраслей в Новом Южном Уэльсе, Австралия. Участники должны были прогнозировать потребление электроэнергии на каждый час дня в течение 28 дней с учетом таких факторов, как температура, влажность и занятость. Участники этого конкурса научились использовать передовые методы прогнозирования временных рядов, такие как повышение градиента и нейронные сети, а также как включать внешние факторы в модели временных рядов.

В заключение следует отметить, что соревнования Kaggle предоставляют специалистам по данным прекрасную возможность изучить новые концепции и методы анализа данных временных рядов. Участвуя в этих соревнованиях, вы узнаете, как работать с большими и сложными наборами данных временных рядов, как использовать различные методы прогнозирования временных рядов и как включать внешние факторы в модели временных рядов. Каждый из конкурсов, обсуждаемых в этом блоге, предлагает уникальный набор задач, которые могут помочь вам улучшить свои навыки и стать лучшим специалистом по данным.

Использованная литература:

Вот ссылки на соревнования Kaggle, о которых я упоминал ранее:

  1. Конкурс Rossman Sales Forecasting: https://www.kaggle.com/c/rossmann-store-sales
  2. Конкурс M5 Forecasting: https://www.kaggle.com/c/m5-forecasting-accuracy
  3. Конкурс глобальных энергетических прогнозов 2014: https://www.kaggle.com/c/global-energy-forecasting-competition-2014-load-forecasting
  4. Соревнование по прогнозированию временных рядов Санта-Клауса: https://www.kaggle.com/c/santa-time-series
  5. Конкурс ценовых предложений Mercari: https://www.kaggle.com/c/mercari-price-suggestion-challenge
  6. Конкурс по прогнозированию продаж продуктов питания Corporación Favorita: https://www.kaggle.com/c/favorita-grocery-sales-forecasting
  7. GE Flight Quest II — соревнование по прогнозированию турбулентности: https://www.kaggle.com/c/turbulence-forecasting-challenge-ii
  8. Конкурс Bike Sharing Demand: https://www.kaggle.com/c/bike-sharing-demand
  9. Соревнование по прогнозированию временных рядов веб-трафика: https://www.kaggle.com/c/web-traffic-time-series-forecasting
  10. Конкурс энергетического прогнозирования: https://www.kaggle.com/c/ashrae-energy-prediction