Давайте попробуем ответить на несколько вопросов о том, какой день и время гарантирует нам такси, основываясь на данных, собранных с Kaggle!

Вступление:

Лично для меня было много случаев, когда я не садился в такси или меня отменили, и было много причин, когда я заказывал его во многих службах, и я чувствовал, что может быть какая-то функция, которая говорит нам о скорости отмены такси, поэтому мы не можем дождитесь такси, которое может быть отменено или из-за отсутствия такси. Отказ от ответственности: есть вариант бронирования, доступный для бронирования заранее, но для некоторых людей, которые хотят срочно отправиться в поездку и не получить такси вовремя, придется нелегко. Исходя из множества произошедших инцидентов, я считаю, что эта функция у всех ведущих поставщиков услуг изменит правила игры и поможет многим людям во всем мире, которые зависят от этого вида транспорта.

Наша стратегия:

Давайте проследим процесс CRISP-DM, чтобы ответить на наши вопросы!

CRISP-DM - ​​это распространенный процесс, используемый для поиска множества решений в области науки о данных.

Этапы этого процесса CRIPS-DM включают:

- Деловое понимание

- Понимание данных

- Подготовка данных

- Моделирование данных

- Оценка

- Развертывание

Краткий обзор данных:

В данных у нас есть подробная информация об идентификаторе запроса, точке получения (город или аэропорт), идентификаторе водителя, отметках времени для запроса и высадки. Как упоминалось выше, всего 6745 строк с 6 столбцами.

Сколько заказывать такси из города и из аэропорта?

Мы видим, что многие люди заказывают такси из города в качестве места посадки, но при сравнении посадки из аэропорта особой разницы нет.

Сколько человек получили такси, а скольким отказались?

мы можем заметить, что с помощью одномерного и двумерного анализа мы можем сказать, что коэффициент отказа от такси из аэропорта выше, чем от бронирования такси в городе.

Сколько всего запросов приходит каждый час в день?

Судя по приведенному выше анализу, с 5:00 до 10:00 и с 17:00 до 23:00 мы получаем много запросов на такси.

Какой будет мой тариф за отмену такси, если я захочу заказать такси на 6:30?

Для этого вопроса мы будем использовать алгоритмы машинного обучения, чтобы спрогнозировать частоту отказов такси, но перед этим нам нужно очистить данные, что занимает большую часть времени, и рассчитать проценты для каждого часа.

Из приведенного выше анализа я попытался использовать множество алгоритмов, но из-за сокращения данных до 24 строк, поскольку мы заинтересованы в этом, алгоритм дерева решений работал лучше, чем другие алгоритмы, и, подойдя к нашему вопросу, прогнозируемая скорость отмены такси составила 85 %! На данный момент, если мы рассмотрим процент отсечения 70%, мы можем предположить, что мы можем не получить такси из-за отмены такси или по любой другой причине, и мы не можем слишком сильно зависеть от этого такси и искать другие способы передвижения. Нам нужны дополнительные данные, чтобы учесть процентную ставку отсечения, поскольку имеющихся текущих данных для меня было недостаточно.

Заключение:

Мы ответили на все вопросы, за исключением некоторой части последнего вопроса, который требовал дополнительных данных для рассмотрения ставки отсечения.

В будущем можно многое сделать, например изучить частоту отмен и количество такси.

Это мой первый блог по науке о данных, надеюсь, вам он понравится, спасибо за внимание, и приветствуются любые советы или любые вещи, которые следует улучшить из дальнейших блогов, поскольку это действительно поможет мне стать лучше и учиться!

Чтобы просмотреть код:



Чтобы связаться со мной через Linkedin:

Https://www.linkedin.com/in/kaushik-tummalapalli/

Я бы с удовольствием подключился :) Увидимся в следующем блоге, а пока продолжайте Hustling и будьте в безопасности!