Анализ экологичного такси Нью-Йорка

В свободное время я брал данные NYC Green Taxi за 2015 год, чтобы узнать, какие рекомендации я могу дать водителям Green Taxi с помощью машинного обучения. Поэтому, чтобы узнать больше об истории создания данных и возможных вариантах загрузки, я посетил веб-сайт NYC OpenData, посвященный данным о поездках на зеленое такси за 2015 год. Выполненный анализ с использованием Python и кода можно найти в моем репозитории Github.

О наборе данных

Полные данные о зеленом такси за 2015 год состоят из 19,8 миллиона строк с 21 столбцом. Они включают записи о поездках по всем поездкам, совершенным на зеленых такси в Нью-Йорке в 2015 году. Записи включают поля, в которых указаны даты / время посадки и высадки, а также места посадки и высадки, расстояние поездки, подробные тарифы, типы тарифов, типы оплаты и количество пассажиров, указанное водителем.

Решение проблем

Я разбиваю проблему на 3 этапа:

Сбор данных и борьба
Исследовательский анализ данных
Прогнозное моделирование

Давайте подробно рассмотрим все три фазы

Сбор данных и борьба

Получил данные, загрузив CSV за 2015 год с веб-сайта. Изучил и скачал зональные данные Нью-Йорка opendatasoft. Альтернативно: данные также можно получить с помощью запроса API.

Очистка данных:

Удалены значения NULL из данных, поскольку Ehail_fee имеет 100% значений NULL.

Коробчатая диаграмма на приведенном выше изображении показывает, как в координатах посадки и высадки есть некоторые случаи, которые в нашем случае являются отклонениями, например, одно из мест посадки находилось недалеко от Великобритании.

График над рамкой показывает распределение пройденного расстояния. Обычно покупатели стараются идти на небольшие расстояния, поэтому удаление выбросов снижает асимметрию данных.

Разработка функций:

Преобразовано время получения из 12-часового формата в 24-часовой и разработан новый столбец «Дата и время».
Разработаны координаты новой функции, которые включают широту и долготу в обоих таблицах данных, чтобы их можно было эффективно сопоставить, а не искать по двум столбцам.
Объединенные координаты из обоих наборов данных разделили штат Нью-Йорк на разные города.

Исследовательский анализ данных

Распространение данных:

На 1-й гистограмме указано, что два поставщика предоставляют Зеленую кабину, а 2-й идентификатор является наиболее доминирующим на рынке.
2 и 3 диаграммы показывают, что обычно пассажиры обычно путешествуют в одиночку, а затем в паре или в группе, и обычно клиенты путешествуют по стандартной тарифной категории.

Исследование поездок:

После очистки набора данных мы можем сказать, что обычно клиенты не склонны совершать более длительные поездки в кабине.
И если мы проанализируем модель пройденного расстояния по часам, то мы сможем ясно увидеть, как рано утром или в нерабочее время клиент отправляется в долгий путь, это может быть потенциальным предположением, что клиент едет в аэропорты.

Схема получения и возврата:

Выше схема посадки и высадки показывает, что люди едут в центр города.
Возможно, туристы обычно едут из аэропорта и любят покидать самые привлекательные места Нью-Йорка, хотя зеленым такси не разрешается забирать клиентов в центре города.
Или же сотрудник возьмет такси от своего дома до района залива около Бруклина.

Прогнозное моделирование

На этом этапе постановки задачи я строю прогнозирующую модель без учителя, чтобы дать рекомендации водителю экологического такси Нью-Йорка, что могут выбрать водители потенциального района, что даже не повлияет на размер заработка водителей на данном этапе.

После загрузки только 20% случайной генеральной совокупности для всего набора данных, чтобы предотвратить любые проблемы с памятью. Выполнил аналогичный описанный выше процесс очистки данных, чтобы получить окончательные данные для построения модели.

Сгруппировали города в штате Нью-Йорк в соответствии с количеством отправлений, распределенных в течение дня, с разбивкой на 24 слота. На основе этого мы можем разработать кластеры и посмотреть, какие города сгруппированы вместе, чтобы, если какой-либо водитель захочет изменить свое рабочее место , он / она может.

Общее количество отправлений в каждом городе штата Нью-Йорк имеет разное количество, поэтому необходимо нормализовать счет, чтобы получить объективные результаты.

Масштабировал его, используя технику нормализации (значение / итог).

Построение модели K-средних:

В штате Нью-Йорк 35 зон, я просто использовал 10 кластеров, чтобы разделить 95 городов на каждую. Я мог бы добиться большего, если бы мог разделить штаты Нью-Йорка на секторы, но я не мог найти какой-либо соответствующий источник данных для его сопоставления.

Рекомендация

Это важный фактор, который может подумать водитель, если он / она хочет переехать в другое место.

Вудхейвен принадлежит к кластеру 0, а в кластере 0 также есть 57 других городов, но если фильтровать по общей сумме и общему количеству пикапов, то у нас останется только 8 других городов.

Таким образом, водитель, который едет в Вудхейвене и зарабатывает 17 долларов США за каждую поездку с 253 пикапами, может ездить и в 8 других городах, где его / ее доход не пострадает.

Дальнейшая работа

Для будущей работы можно подключить дополнительный набор данных, например о погоде в Нью-Йорке, для дальнейшего прогнозирования всплеска в конкретном городе или районе, что может принести пользу водителю зеленой такси.

Анализ экологичного такси Нью-Йорка

Анализ экологичного такси Нью-Йорка

Вопросы по теме