Мотивация. В этой статье подробно описывается проект, который моя команда по данным и аналитике в Data Glacier поручила нашему классу стажеров. Мы отвечали за анализ данных и разработку стратегии выхода на рынок (стратегия G2M) для индустрии такси. Данные двух таксомоторных компаний помечены как Желтая таксомоторная компания и Розовая таксомоторная компания из соображений анонимности.

Цель: определить, какая компания более прибыльна и заслуживает инвестиций.

*Код не приводится, чтобы упростить донесение диссертации и концепции Data Science до нетехнической аудитории.

4-D Methodology: пошаговое руководство по моему рабочему процессу Data Science.

  1. Определите проблему
  2. Откройте для себя статистику
  3. Разработка функций и моделей
  4. Разверните конвейер для автоматизации или конечный продукт для аудитории

1. Определите проблему

Обратитесь к мотивации.

2. Откройте для себя идеи

Этот этап в структуре также обычно переназначается как этап исследовательского анализа данных (EDA). Он выглядит следующим образом:

Получить данные

Данные для этого проекта были переданы Data Glacierв 4различных файлах .csv. Они содержат информацию о городе, типе оплаты, демографических данных клиентов и деталях поездки. Все четыре таблицы содержали 14 комбинированных функций и около 360 000 строк.

Исследуйте и очищайте данные

Изучив каждый файл, я объединил их в полях CustomerID и TransactionID, чтобы увидеть, как функция одной таблицы взаимодействует с функцией другой. Отсутствующих данных не было, что означает, что набор данных имеет высокую целостность данных. Я узнал следующие факты после изучения уникальных значений каждой функции, описательной статистики (среднее, медиана, стандартное отклонение и т. д.) и распределений:

  • Данные за 2016–2018 гг.
  • Компании такси завершили работу ›50% скидки на поездки в Нью-Йорке, Чикаго или Лос-Анджелесе
  • По мере смены сезонов (весна → лето → осень → зима) объем поездок увеличивался.
  • Компания Yellow Cab совершила в 3 раза больше поездок, чем компания Pink Cab.

Установите базовые результаты и пороговые значения

Прежде чем формулировать некоторые гипотезы, важно обосновать наше понимание данных и отрасли, установив базовую модель или показатель.

В данном случае мы рассмотрим компанию по вызову такси Uber с 2016 по 2018 год. За эти годы количество поездок Uber увеличилось следующим образом: 1,8 млрд, 3,7 млрд и 5,2 млрд. Однако по мере увеличения объема поездок прибыль в те годы была не такой предсказуемой. Чистая прибыль упала с -400 миллионов долларов до -4 миллиардов долларов в 2017 году. В следующем году она увеличилась до 1 миллиарда долларов и, наконец, стала прибыльной. Наконец, мы наблюдаем прибыль за поездку на уровне -0,22, -1,08, 0,19 долл. США в период с 2016 по 2018 год для стандартизации цен и объемов (источник: Uber).

Я не буду вдаваться в подробности о множестве метрик, доступных для машинного обучения, но я выбрал метрику среднеквадратичной ошибки (RMSE). Метрика вычисляет общую ошибку = сумму разницы между фактическим значением и прогнозируемым результатом нашей модели. Ключевым преимуществом является то, что единицы метрики RMSE интерпретируются в сумме ($). Точно так же мы используем методы регрессии, поскольку мы прогнозируем числовое значение, а не категорию единиц.

Выдвижение гипотез (машинное обучение) решений

В библиотеках Python существует множество методов регрессии, которые помогают прогнозировать прибыль с учетом доступных данных. Первоначально я думал, что деревья регрессии случайного леса будут работать лучше всего и обнаруживать уникальные особенности, которые объясняют вариации (которые помогают делать прогнозы) в прибыли.

3. Разработайте функции и модели

Разработка функций

Я считаю, что это самый впечатляющий и захватывающий шаг в рабочем процессе машинного обучения. Разработка функций не так сложна, как кажется: это просто создание новых функций путем манипулирования существующими функциями. В этом проекте я создал следующие функции:

  • Выгода
  • Сезонные особенности из метки времени: месяц, день, год
  • on_Holiday, который проверял, произошла ли дата поездки в праздничный день в США.

После создания целевой функции, прибыли, мы можем рассчитать прибыль за поездку для компаний Pink и Yellow Cab, чтобы сравнить ее с установленным ранее базовым уровнем Uber.

Компания Pink Cab получила прибыль за поездку в размере 62,65 долларов США, а компания Yellow Cab Company получила прибыль за поездку в размере 160,26 долларов США.

Создание и тестирование модели

Чтобы охватить все основы для прогнозирования прибыли, я использовал все методы регрессии, доступные в пакетах Scikit-Learn, LightGBM, XGBoost Python. Список выглядит следующим образом:

  • Линейная регрессия
  • Случайный лесной регрессор
  • Легкий регрессор GBM
  • Регрессор повышения градиента
  • XGBoost регрессор

Выбор модели

Во-первых, я разделил данные на обучающие, проверочные и тестовые данные для поездок с обеими компаниями. Я подогнал модель к обучающим данным и предсказал проверочные данные, чтобы увидеть, как модель будет работать. Важно оставить тестовые данные в покое до наших окончательных прогнозов, чтобы устранить систематическую ошибку и смоделировать реальные данные.

Я обнаружил, что линейная регрессия имеет самое низкое среднеквадратичное отклонение 1,0^-6 или приблизительно 0 и работает намного быстрее, чем модель случайного лесного регрессора, поэтому моя гипотеза неверна. Издержки и взимаемая цена, естественно, были двумя наиболее важными факторами в прогнозировании прибыли.

4. Разверните конвейер для автоматизации или конечного продукта для аудитории

Для этого проекта я автоматизировал конвейер для вывода прогнозируемой прибыли водителя такси с минимальной ошибкой.

Вес характеристики цены поездки для обеих компаний составлял ~180, тогда как вес характеристики стоимости поездки для обеих компаний составлял ~(135). Обе модели также имели перехваты ~ 62. Вы можете интерпретировать вес признака как то, как изменение этого признака на 1 единицу влияет на зависимую переменную — прибыль. Цена поездки оказывает большое положительное влияние на прибыль в соответствии со своим знаком и величиной; тогда как стоимость поездки оказывает большое негативное влияние на прибыль.

Вперед

В конце концов, мы отвергли нашу гипотезу и пришли к выводу, что линейная регрессия является наиболее простой и понятной моделью для прогнозирования тенденций. Кроме того, после сравнения нашего базового показателя прибыли за поездку с Uber мы пришли к выводу, что обе компании такси являются гораздо лучшими инвестициями. Однако компания Yellow Cab Company была более прибыльной из двух.

Спасибо, что дочитали до конца! Не стесняйтесь связаться со мной ниже и задать любые вопросы.

GitHub- https://github.com/siddley1001/DG_internship

LinkedIn- https://linkedin.com/in/sid-vanam/