Анализ экологичного такси Нью-Йорка
В свободное время я брал данные NYC Green Taxi за 2015 год, чтобы узнать, какие рекомендации я могу дать водителям Green Taxi с помощью машинного обучения. Поэтому, чтобы узнать больше об истории создания данных и возможных вариантах загрузки, я посетил веб-сайт NYC OpenData, посвященный данным о поездках на зеленое такси за 2015 год. Выполненный анализ с использованием Python и кода можно найти в моем репозитории Github.
О наборе данных
Полные данные о зеленом такси за 2015 год состоят из 19,8 миллиона строк с 21 столбцом. Они включают записи о поездках по всем поездкам, совершенным на зеленых такси в Нью-Йорке в 2015 году. Записи включают поля, в которых указаны даты / время посадки и высадки, а также места посадки и высадки, расстояние поездки, подробные тарифы, типы тарифов, типы оплаты и количество пассажиров, указанное водителем.
Решение проблем
Я разбиваю проблему на 3 этапа:
- Сбор данных и борьба
- Исследовательский анализ данных
- Прогнозное моделирование
Давайте подробно рассмотрим все три фазы
Сбор данных и борьба
Получил данные, загрузив CSV за 2015 год с веб-сайта. Изучил и скачал зональные данные Нью-Йорка opendatasoft. Альтернативно: данные также можно получить с помощью запроса API.
Очистка данных:
- Удалены значения NULL из данных, поскольку Ehail_fee имеет 100% значений NULL.
- Коробчатая диаграмма на приведенном выше изображении показывает, как в координатах посадки и высадки есть некоторые случаи, которые в нашем случае являются отклонениями, например, одно из мест посадки находилось недалеко от Великобритании.
- График над рамкой показывает распределение пройденного расстояния. Обычно покупатели стараются идти на небольшие расстояния, поэтому удаление выбросов снижает асимметрию данных.
Разработка функций:
- Преобразовано время получения из 12-часового формата в 24-часовой и разработан новый столбец «Дата и время».
- Разработаны координаты новой функции, которые включают широту и долготу в обоих таблицах данных, чтобы их можно было эффективно сопоставить, а не искать по двум столбцам.
- Объединенные координаты из обоих наборов данных разделили штат Нью-Йорк на разные города.
Исследовательский анализ данных
Распространение данных:
- На 1-й гистограмме указано, что два поставщика предоставляют Зеленую кабину, а 2-й идентификатор является наиболее доминирующим на рынке.
- 2 и 3 диаграммы показывают, что обычно пассажиры обычно путешествуют в одиночку, а затем в паре или в группе, и обычно клиенты путешествуют по стандартной тарифной категории.
Исследование поездок:
- После очистки набора данных мы можем сказать, что обычно клиенты не склонны совершать более длительные поездки в кабине.
- И если мы проанализируем модель пройденного расстояния по часам, то мы сможем ясно увидеть, как рано утром или в нерабочее время клиент отправляется в долгий путь, это может быть потенциальным предположением, что клиент едет в аэропорты.
Схема получения и возврата:
- Выше схема посадки и высадки показывает, что люди едут в центр города.
- Возможно, туристы обычно едут из аэропорта и любят покидать самые привлекательные места Нью-Йорка, хотя зеленым такси не разрешается забирать клиентов в центре города.
- Или же сотрудник возьмет такси от своего дома до района залива около Бруклина.
Прогнозное моделирование
На этом этапе постановки задачи я строю прогнозирующую модель без учителя, чтобы дать рекомендации водителю экологического такси Нью-Йорка, что могут выбрать водители потенциального района, что даже не повлияет на размер заработка водителей на данном этапе.
После загрузки только 20% случайной генеральной совокупности для всего набора данных, чтобы предотвратить любые проблемы с памятью. Выполнил аналогичный описанный выше процесс очистки данных, чтобы получить окончательные данные для построения модели.
Сгруппировали города в штате Нью-Йорк в соответствии с количеством отправлений, распределенных в течение дня, с разбивкой на 24 слота. На основе этого мы можем разработать кластеры и посмотреть, какие города сгруппированы вместе, чтобы, если какой-либо водитель захочет изменить свое рабочее место , он / она может.
Общее количество отправлений в каждом городе штата Нью-Йорк имеет разное количество, поэтому необходимо нормализовать счет, чтобы получить объективные результаты.
Масштабировал его, используя технику нормализации (значение / итог).
Построение модели K-средних:
В штате Нью-Йорк 35 зон, я просто использовал 10 кластеров, чтобы разделить 95 городов на каждую. Я мог бы добиться большего, если бы мог разделить штаты Нью-Йорка на секторы, но я не мог найти какой-либо соответствующий источник данных для его сопоставления.
Рекомендация
- Это важный фактор, который может подумать водитель, если он / она хочет переехать в другое место.
ID поставщика | Passenger_Count | Trip_distance | Fare_Amount | Подсказка Amt | Общая сумма
- Вудхейвен принадлежит к кластеру 0, а в кластере 0 также есть 57 других городов, но если фильтровать по общей сумме и общему количеству пикапов, то у нас останется только 8 других городов.
Таким образом, водитель, который едет в Вудхейвене и зарабатывает 17 долларов США за каждую поездку с 253 пикапами, может ездить и в 8 других городах, где его / ее доход не пострадает.
Дальнейшая работа
Для будущей работы можно подключить дополнительный набор данных, например о погоде в Нью-Йорке, для дальнейшего прогнозирования всплеска в конкретном городе или районе, что может принести пользу водителю зеленой такси.