Автор: Адам Хут, Изабель Завиан и Эбру Одок

Прекрасный полдень вторника — небо голубое, птицы поют, и, к несчастью для вас, вы бегаете по делам. Сейчас 15:17 — полный список продуктов лежит у вас на коленях, и вы должны забрать детей в четыре, прежде чем отвезти их на футбольную тренировку. О, круто; бутсы еще не пришли. Придется подождать — сначала продукты! Вы лихорадочно бежите в магазин, напоминая себе, что на этот раз не забыть яйца.

16:12, и вы въезжаете на парковку футбольного поля. Вы выпрыгиваете и открываете багажник, прежде чем замечаете неоткрытую светло-коричневую коробку с синей лентой. Они вошли! Вы забыли, что подписались на Amazon Key, и пока вы делали покупки, сотрудник Amazon положил вашу посылку в багажник. Похоже, детям больше не придется носить фургоны на поле.

Это лишь одно из применений того, что может дать система прогнозирования. Наши автомобили (и наши данные) в сочетании с качественными моделями прогнозирования открывают множество привлекательных новых рыночных возможностей, от обслуживания транспортных средств на ходу до рекомендаций по городскому планированию для зарядных станций для электромобилей. Мы объединились с 99P Labs для создания этих прогностических моделей; в частности, мы пытаемся предсказать время пребывания транспортного средства, а также его местоположение. Время выдержки определяется как время между двумя последовательными циклами двигателя; то есть время между парковкой автомобиля и выключением до момента перезапуска двигателя и начала новой поездки.

Мы не единственные, кто пытается решить эту проблему. Нам не удалось найти много статей, связанных с моделями времени пребывания для автомобилей, но мы нашли несколько статей, посвященных автобусам и поездам. Большинство этих проектов использовали кластеризацию k-Means и DBScan для поиска совпадений и закономерностей в данных и построения модели времени ожидания.

Изначально у нас был план поработать над тремя разными моделями — скрытой марковской моделью (HMM), моделью авторегрессионного интегрированного скользящего среднего (ARIMA) и моделью с долговременной краткосрочной памятью (LSTM) — для предсказания времени пребывания и местоположения, а затем выберите модель с наилучшей точностью испытаний. Однако после дальнейших исследований и выводов из бесчисленных исследовательских работ, а также профессоров и сотрудников Калифорнийского университета в Беркли мы в конечном итоге решили создать и обучить две отдельные модели для каждого прогноза. Когда мы впервые планировали создать наши собственные HMM и LSTM, нам сказали, что HMM будут чрезвычайно сложными и что создание и обучение модели LSTM с нуля займет огромное количество времени, поэтому нам нужно было пересмотреть наш подход и сосредоточиться на самая безопасная модель, которая также требует меньше времени для реализации и имеет более высокую точность. Можно было найти какую-нибудь предварительно обученную модель LSTM, но мы глубже изучили модель ARIMA и поняли, что это лучший вариант для прогнозирования временных рядов, на котором обычно сосредоточен наш проект. Кроме того, мы отказались от использования нейронной сети из-за ее «черного ящика»; интерпретируемость важна как для нас, так и для команды 99P Labs, и мы чувствовали, что не сможем объяснить, как нейронная сеть предсказывает время или местоположение пребывания на основе набора, казалось бы, несвязанных, случайных признаков.

Еще одна проблема, с которой мы столкнулись, заключалась в том, чтобы определить, можем ли мы построить единую модель для предсказания времени пребывания и местоположения, или нам понадобится отдельная модель для каждого и найти способ связать их вместе ближе к концу. Мы выбрали последнее, потому что пришли к выводу, что кластеризация k-средних будет наиболее полезной для модели времени пребывания и что модель ARIMA будет необходима для фактического прогнозирования местоположения транспортных средств и выработки чувства точности по отношению к нему.

В настоящее время команда работает над фильтрацией набора данных на основе времени ожидания. Мы создали новую таблицу наблюдений за временем пребывания с переменными, включая время начала и окончания поездки, местонахождение и время пребывания. К концу процесса манипулирования данными у нас фактически останется «временная шкала» времени пребывания и местоположения для каждого автомобиля и поездки. Это должны быть все переменные, необходимые для создания первой версии нашей модели времени пребывания, и мы надеемся использовать ее после того, как запустим и запустим нашу первоначальную версию. Поскольку прогнозирование времени ожидания является основным приоритетом целей нашего проекта, мы планируем потратить больше всего энергии на создание этой модели в начале, чтобы мы могли потратить больше времени на обучение и настройку гиперпараметров.

Наши следующие шаги — создать функцию, которая выводит геозону местоположения для определенных пар координат широты и долготы. Это поможет решить проблемы, которые мы предвидим, с прогнозированием местоположения для часто посещаемой области с диапазоном значений широты и долготы (например, парковка продуктового магазина). Мы предполагаем, что кластер местоположений может иметь характеристики, связанные, что наиболее важно, с характерным временем пребывания. Создав эту функцию, мы должны начать группировать места на основе координат и количества автомобилей, которые остаются припаркованными между поездками в этом месте. По сути, мы будем оценивать высокоприоритетные пункты назначения (которые, как мы предполагаем, будут основными местами для доставки), и передавать эту информацию в нашу модель ARIMA, чтобы придать ей немного импульса, что является популярным методом прогнозирования местоположения, который мы видели в научных статьях.

Hondezvous — это совместный проект Чарли Дуарте, Нихила Датта, Адама Хута, Эбру Одок, Сюэруи Сонг и Изабель Завиан.

Ссылки на проверенные источники:







https://www.researchgate.net/publication/303527611_Method_for_analysis_and_prediction_of_dwell_times_at_stops_in_local_bus_transportation