Пример использования в науке о данных: оптимизация размещения продуктов в розничной торговле (часть 1)

Практический способ создания ценности с помощью науки о данных

В предыдущем посте я написал о подходе, который я использую для создания ценности в моем проекте по науке о данных. Чтобы быстро резюмировать и резюмировать то, что я сказал в этом посте, цель Data Science - способствовать принятию более эффективных решений. Для этого требуется, чтобы у нас было сочувствие , чтобы гарантировать, что мы задаем правильные вопросы и используем правильную информацию.

При сопоставлении с холстом ценностного предложения проекты по науке о данных можно рассматривать как продукты, которые удовлетворяют потребности наших клиентов (а именно, принятие решений), решают проблемы, связанные с принятием этих решений, и максимизируют выгоды, которые можно получить от принятия правильных решений. .

Данные

В сегодняшней публикации набор данных, который я собираюсь использовать, взят из набора данных Big Mart Sales III в Analytics Vidhya, который доступен на одном из их практических соревнований. Вы можете посмотреть, используя ссылку ниже.

Практическая проблема: большие продажи III
Практическая проблема: крупные продажи III | Знания и обучение datahack.analyticsvidhya.com

Описание данных (взято с сайта конкурса)

Специалисты по обработке данных BigMart собрали данные о продажах за 2013 год для 1559 товаров в 10 магазинах в разных городах. Также были определены определенные атрибуты каждого продукта и магазина.

Данные, содержащиеся в наборе данных, следующие:

Item_Identifier: уникальный идентификатор продукта.
Item_Weight Вес товара
Item_Fat_Content: обезжиренный продукт или нет.
Item_Visibility: процент от общей площади отображения всех продуктов в магазине, выделенный для конкретного продукта.
Item_Type: категория, к которой принадлежит товар.
Item_MRP: максимальная розничная цена (прейскурантная цена) продукта.
Outlet_Identifier: уникальный идентификатор магазина.
Outlet_Establishment_Year: год открытия магазина.
Outlet_Size: размер магазина с точки зрения занимаемой площади.
Outlet_Location_Type: тип города, в котором расположен магазин.
Outlet_Type: независимо от того, является ли торговая точка просто продуктовым магазином или каким-то супермаркетом.
Item_Outlet_Sales: Продажи товара в определенном магазине.

Определение проблемы

Как указывалось ранее, в этом проекте мы постараемся найти лучшие варианты размещения продукта для максимального увеличения переменной Item_Outlet_Sales. Мы сделаем это, создав модель для прогнозирования этой ценности для определенных товаров, а затем предложим возможные способы улучшения размещения этого продукта.

Используя то, что мы знаем, для создания нашего профиля клиента, мы получаем:

Работа: Оптимизация размещения продукта.
Проблемы: незнание факторов, влияющих на продажи.
Прибыль: понимание предпочтений клиентов.

Формулировка подхода

Вот что мы сделаем, чтобы создать правильный информационный продукт:

Постройте модель для создания прогнозов продаж
Понять, что влияет на продажи
В зависимости от того, что влияет на продажи, предоставьте предложения по увеличению исходных прогнозов.

Обнаружение наиболее важных, но поддающихся контролю функций

Я подумал, что стоит поделиться тем, что я использовал функцию XGBoost feature important для определения функций, которыми я хотел бы управлять, чтобы изменить прогноз продаж. График ниже показывает важность различных функций в наборе данных:

Из всех функций, показанных на графике, важно обращать внимание на Item_MRP, Outlet_Type, Item_Visibility, Outlet_Size и Outlet_Location_Type - это управляемые функции . В этом проекте я предполагаю, что мы хотим оставить MRP как есть. Наиболее важной из них является переменная Outlet_Type. Корректировка прогноза в первую очередь означает выбор типа торговой точки, которая даст наиболее многообещающий прогноз.

При этом я решил, что лучше всего циклически переключаться между существующими торговыми точками (и их соответствующей конфигурацией) из-за того, что в BigMart всего 10 торговых точек.

Код для этого следующий:

Создание нашего нового прогноза было довольно простым и делалось так:

Окончательный результат

После запуска написанной мной программы была выдана следующая рекомендация:

I recommend that Item 'FDW58', be moved from Outlet 'OUT049', to Outlet 'OUT027'.
The adjusted forecast is expected to be 64.0% better (2606.40), than the original forecast of $1589.31.
Configuration details:
Outlet_Size:  Medium --> Medium
Outlet_Location_Type: Tier 1 --> Tier 3
Outlet_Type: Supermarket Type1 --> Supermarket Type3
Outlet_Age: 19 --> 33

Понимание ценностного предложения

Связывая все это с тем, что я упоминал ранее о проектах по разработке ценностного предложения и Data Science, мы можем резюмировать то, что мы разработали, следующим образом:

Продукты и услуги: информационный продукт, предлагающий наилучшие варианты размещения продукта.
Обезболивающие. Снижение неопределенности при принятии решений.
Привлекайте авторов. Продукты доступны для клиентов, которые в них больше всего нуждаются.

Обратите внимание, что в этом примере наше решение не только решает проблему для сотрудников Big Mart, но также влияет на их клиентов. Обдумывание тех, на кого влияют решения, поддерживаемые нашими продуктами, жизненно важно для создания правильного продукта.

Заключение

Важно отметить, что этот алгоритм обычно встречается в сценариях использования «идеальной системы», таких как игры и моделирование, в которых известны все правила системы и отсутствуют неизвестные переменные. К сожалению, жизнь устроена не так. Методы машинного обучения, применяемые к сценариям «что, если», служат только для того, чтобы дать представление о том, что может дать наилучшие результаты.

Несмотря на то, что им были предоставлены данные о продажах, они все еще не уверены в сезонности наблюдаемых покупательских привычек, что, безусловно, может повлиять на качество рекомендаций. Лучшая версия этой системы могла бы найти лучшие варианты размещения для нескольких продуктов, позволяя пользователям отдавать предпочтение одному продукту над другим.

Я надеюсь, что этот пост дал вам четкий и практический подход к созданию ценности с помощью Data Science для проектов, и я надеюсь, что вы узнали что-то новое. Как обычно, я приветствую ваши отзывы и с нетерпением жду возможности создавать больше контента.

Я хотел бы закончить этот пост, поблагодарив некоторых очень важных людей. Во-первых, я хотел бы поблагодарить прекрасных людей из Data Helpers за то, что они были доступны для вопросов, рекомендаций и помощи в области науки о данных в целом. Если вы ищете наставника по науке о данных, я настоятельно рекомендую вам начать с него. Я также хотел бы поблагодарить Рэйчел Тэтман за то, что меня к ним подключили, а также за отличную работу, которую она делает в Kaggle в области образования в области науки о данных.

Если вы хотите узнать больше об инструментах, которые я использовал для создания решения, упомянутого в этом примере, перейдите по ссылкам ниже:

XGBoost
xgboost - масштабируемая, переносимая и распределенная библиотека повышения градиента (GBDT, GBRT или GBM) для Python, R, Java, Scala… github.com

Настройка гиперпараметров в XGBoost
В этом руководстве вы научитесь использовать собственный API XGBoost (для API sklearn см. Предыдущее руководство), который… cambridgespark. com