Давайте попробуем ответить на несколько вопросов о том, какой день и время гарантирует нам такси, основываясь на данных, собранных с Kaggle!
Вступление:
Лично для меня было много случаев, когда я не садился в такси или меня отменили, и было много причин, когда я заказывал его во многих службах, и я чувствовал, что может быть какая-то функция, которая говорит нам о скорости отмены такси, поэтому мы не можем дождитесь такси, которое может быть отменено или из-за отсутствия такси. Отказ от ответственности: есть вариант бронирования, доступный для бронирования заранее, но для некоторых людей, которые хотят срочно отправиться в поездку и не получить такси вовремя, придется нелегко. Исходя из множества произошедших инцидентов, я считаю, что эта функция у всех ведущих поставщиков услуг изменит правила игры и поможет многим людям во всем мире, которые зависят от этого вида транспорта.
Наша стратегия:
Давайте проследим процесс CRISP-DM, чтобы ответить на наши вопросы!
CRISP-DM - это распространенный процесс, используемый для поиска множества решений в области науки о данных.
Этапы этого процесса CRIPS-DM включают:
- Деловое понимание
- Понимание данных
- Подготовка данных
- Моделирование данных
- Оценка
- Развертывание
Краткий обзор данных:
В данных у нас есть подробная информация об идентификаторе запроса, точке получения (город или аэропорт), идентификаторе водителя, отметках времени для запроса и высадки. Как упоминалось выше, всего 6745 строк с 6 столбцами.
Сколько заказывать такси из города и из аэропорта?
Мы видим, что многие люди заказывают такси из города в качестве места посадки, но при сравнении посадки из аэропорта особой разницы нет.
Сколько человек получили такси, а скольким отказались?
мы можем заметить, что с помощью одномерного и двумерного анализа мы можем сказать, что коэффициент отказа от такси из аэропорта выше, чем от бронирования такси в городе.
Сколько всего запросов приходит каждый час в день?
Судя по приведенному выше анализу, с 5:00 до 10:00 и с 17:00 до 23:00 мы получаем много запросов на такси.
Какой будет мой тариф за отмену такси, если я захочу заказать такси на 6:30?
Для этого вопроса мы будем использовать алгоритмы машинного обучения, чтобы спрогнозировать частоту отказов такси, но перед этим нам нужно очистить данные, что занимает большую часть времени, и рассчитать проценты для каждого часа.
Из приведенного выше анализа я попытался использовать множество алгоритмов, но из-за сокращения данных до 24 строк, поскольку мы заинтересованы в этом, алгоритм дерева решений работал лучше, чем другие алгоритмы, и, подойдя к нашему вопросу, прогнозируемая скорость отмены такси составила 85 %! На данный момент, если мы рассмотрим процент отсечения 70%, мы можем предположить, что мы можем не получить такси из-за отмены такси или по любой другой причине, и мы не можем слишком сильно зависеть от этого такси и искать другие способы передвижения. Нам нужны дополнительные данные, чтобы учесть процентную ставку отсечения, поскольку имеющихся текущих данных для меня было недостаточно.
Заключение:
Мы ответили на все вопросы, за исключением некоторой части последнего вопроса, который требовал дополнительных данных для рассмотрения ставки отсечения.
В будущем можно многое сделать, например изучить частоту отмен и количество такси.
Это мой первый блог по науке о данных, надеюсь, вам он понравится, спасибо за внимание, и приветствуются любые советы или любые вещи, которые следует улучшить из дальнейших блогов, поскольку это действительно поможет мне стать лучше и учиться!
Чтобы просмотреть код:
Чтобы связаться со мной через Linkedin: