Анализ экологичного такси Нью-Йорка

В свободное время я брал данные NYC Green Taxi за 2015 год, чтобы узнать, какие рекомендации я могу дать водителям Green Taxi с помощью машинного обучения. Поэтому, чтобы узнать больше об истории создания данных и возможных вариантах загрузки, я посетил веб-сайт NYC OpenData, посвященный данным о поездках на зеленое такси за 2015 год. Выполненный анализ с использованием Python и кода можно найти в моем репозитории Github.

О наборе данных

Полные данные о зеленом такси за 2015 год состоят из 19,8 миллиона строк с 21 столбцом. Они включают записи о поездках по всем поездкам, совершенным на зеленых такси в Нью-Йорке в 2015 году. Записи включают поля, в которых указаны даты / время посадки и высадки, а также места посадки и высадки, расстояние поездки, подробные тарифы, типы тарифов, типы оплаты и количество пассажиров, указанное водителем.

Решение проблем

Я разбиваю проблему на 3 этапа:

  • Сбор данных и борьба
  • Исследовательский анализ данных
  • Прогнозное моделирование

Давайте подробно рассмотрим все три фазы

Сбор данных и борьба

Получил данные, загрузив CSV за 2015 год с веб-сайта. Изучил и скачал зональные данные Нью-Йорка opendatasoft. Альтернативно: данные также можно получить с помощью запроса API.

Очистка данных:

  • Удалены значения NULL из данных, поскольку Ehail_fee имеет 100% значений NULL.

  • Коробчатая диаграмма на приведенном выше изображении показывает, как в координатах посадки и высадки есть некоторые случаи, которые в нашем случае являются отклонениями, например, одно из мест посадки находилось недалеко от Великобритании.

  • График над рамкой показывает распределение пройденного расстояния. Обычно покупатели стараются идти на небольшие расстояния, поэтому удаление выбросов снижает асимметрию данных.

Разработка функций:

  • Преобразовано время получения из 12-часового формата в 24-часовой и разработан новый столбец «Дата и время».
  • Разработаны координаты новой функции, которые включают широту и долготу в обоих таблицах данных, чтобы их можно было эффективно сопоставить, а не искать по двум столбцам.
  • Объединенные координаты из обоих наборов данных разделили штат Нью-Йорк на разные города.

Исследовательский анализ данных

Распространение данных:

  • На 1-й гистограмме указано, что два поставщика предоставляют Зеленую кабину, а 2-й идентификатор является наиболее доминирующим на рынке.
  • 2 и 3 диаграммы показывают, что обычно пассажиры обычно путешествуют в одиночку, а затем в паре или в группе, и обычно клиенты путешествуют по стандартной тарифной категории.

Исследование поездок:

  • После очистки набора данных мы можем сказать, что обычно клиенты не склонны совершать более длительные поездки в кабине.
  • И если мы проанализируем модель пройденного расстояния по часам, то мы сможем ясно увидеть, как рано утром или в нерабочее время клиент отправляется в долгий путь, это может быть потенциальным предположением, что клиент едет в аэропорты.

Схема получения и возврата:

  • Выше схема посадки и высадки показывает, что люди едут в центр города.
  • Возможно, туристы обычно едут из аэропорта и любят покидать самые привлекательные места Нью-Йорка, хотя зеленым такси не разрешается забирать клиентов в центре города.
  • Или же сотрудник возьмет такси от своего дома до района залива около Бруклина.

Прогнозное моделирование

На этом этапе постановки задачи я строю прогнозирующую модель без учителя, чтобы дать рекомендации водителю экологического такси Нью-Йорка, что могут выбрать водители потенциального района, что даже не повлияет на размер заработка водителей на данном этапе.

После загрузки только 20% случайной генеральной совокупности для всего набора данных, чтобы предотвратить любые проблемы с памятью. Выполнил аналогичный описанный выше процесс очистки данных, чтобы получить окончательные данные для построения модели.

Сгруппировали города в штате Нью-Йорк в соответствии с количеством отправлений, распределенных в течение дня, с разбивкой на 24 слота. На основе этого мы можем разработать кластеры и посмотреть, какие города сгруппированы вместе, чтобы, если какой-либо водитель захочет изменить свое рабочее место , он / она может.

Общее количество отправлений в каждом городе штата Нью-Йорк имеет разное количество, поэтому необходимо нормализовать счет, чтобы получить объективные результаты.

Масштабировал его, используя технику нормализации (значение / итог).

Построение модели K-средних:

В штате Нью-Йорк 35 зон, я просто использовал 10 кластеров, чтобы разделить 95 городов на каждую. Я мог бы добиться большего, если бы мог разделить штаты Нью-Йорка на секторы, но я не мог найти какой-либо соответствующий источник данных для его сопоставления.

Рекомендация

  • Это важный фактор, который может подумать водитель, если он / она хочет переехать в другое место.

ID поставщика | Passenger_Count | Trip_distance | Fare_Amount | Подсказка Amt | Общая сумма

  • Вудхейвен принадлежит к кластеру 0, а в кластере 0 также есть 57 других городов, но если фильтровать по общей сумме и общему количеству пикапов, то у нас останется только 8 других городов.

Таким образом, водитель, который едет в Вудхейвене и зарабатывает 17 долларов США за каждую поездку с 253 пикапами, может ездить и в 8 других городах, где его / ее доход не пострадает.

Дальнейшая работа

Для будущей работы можно подключить дополнительный набор данных, например о погоде в Нью-Йорке, для дальнейшего прогнозирования всплеска в конкретном городе или районе, что может принести пользу водителю зеленой такси.