Введение

Кампании по продажам - это маркетинговый инструмент, используемый для увеличения краткосрочных продаж. Успех зависит от нацеливания правильного типа продвижения на нужного клиента. Плохо спланированная торговая кампания может стоить компании; например, прибыль может быть потеряна в виде вознаграждений, которые они раздают. Это означает, что каждый раз, когда компания инициирует кампанию продаж, необходимо тщательно продумывать форму вознаграждения, и критически важной информацией, необходимой для принятия этого решения, является: 1) прогнозируемый рост продаж для различных типов рекламных акций и 2) знание того, как конкретные клиенты реагируют на различные рекламные объявления. Имея почти 14000 магазинов в Соединенных Штатах, такой мегаполис, как Starbucks, обслуживает миллионы клиентов, и цена неэффективной торговой кампании может быть значительной.

В этом посте я буду использовать данные, собранные в ходе эксперимента (см. Ниже), проведенного Starbucks, для анализа реакции клиентов на различные рекламные акции. В Starbucks большинство рекламных кампаний проводится через Интернет, и эти рекламные акции можно разделить на три категории:

  • Скидка
  • Купи один - получишь один бесплатно (BOGO)
  • Информационные (например, новые или сезонные продукты)

Кампания по продажам считается успешной, если постоянный клиент Starbucks тратит больше, чем он тратит в период проведения акции. Кампания продаж может стоить компании затрат, если постоянный клиент Starbucks не изменит свое поведение в отношении расходов в течение этого периода. Starbucks насчитывает около 23 миллионов участников «мобильного приложения Starbucks» и огромную коллекцию данных о демографических данных, полученных рекламных акциях и записях о покупках этих клиентов. Объединив несколько методов анализа данных, я отвечу на следующие вопросы (кратко изложен подход к каждой цели):

1. Сегментирование группы клиентов. Можем ли мы сегментировать клиентов на отзывчивых и неотзывчивых клиентов для различных категорий торговых кампаний?

Я спроектирую функции и вручную разделю клиентов на две группы: тех, кто не реагирует на продвижение, и тех, кто отвечает на продвижение. Отзывчивый клиент - это тот, у кого наблюдается рост расходов в Starbucks в период проведения акции.

2. Прогнозирование поведения новых клиентов. Учитывая базовый профиль (возраст, доход, пол, дату членства) клиента, не имевшего предшествующих покупок в Starbucks, можем ли мы предсказать, как он или она отреагирует на определенную рекламную акцию?

На основе существующих демографических данных клиентов (пол, возраст, доход и срок членства) я буду использовать машинное обучение для построения прогнозной модели, которая поможет предсказать, будет ли новый участник Starbucks отзывчивым клиентом в определенную категорию продвижения.

3. Определение характеристик успешного продвижения. Какие особенности коррелируют с успешной торговой кампанией?

Используя исследовательский анализ данных (EDA), я определю особенности, которые являются общими для успешных рекламных акций.

Терминология

Подтип рекламной акции может попасть в одну из трех категорий: 1) скидка, 2) BOGO или 3) информационная. Например, подтипы промоакций «потратьте 10 долларов и получите скидку 2 доллара» и «потратите 20 долларов и получите скидку 5 долларов» относятся к категории скидок.

В категории скидок клиенты получают небольшое вознаграждение, потратив определенную сумму (например, потратив 10 долларов и получите скидку 2 доллара). В категории BOGO покупатели платят полную цену за товар и получают второй товар бесплатно. В информационной категории не представлены денежные средства или вознаграждения, но покупатель уведомляется о новых или сезонных продуктах.

Одиночное предложение - это реклама, отправляемая клиенту и объявляющая о подтипе рекламной акции.

Кампания продаж - это одновременная отправка нескольких отдельных предложений группе клиентов.

Эксперимент Starbucks

В этом эксперименте, проведенном Starbucks, были собраны данные для шести кампаний продаж. Кампании продаж объявлялись в дни 1, 8, 15, 18, 21 и 24. Во время каждой кампании продаж около 12700 отдельных предложений (примерно 1270 отдельных предложений на каждый подтип) были отправлены случайно выбранным клиентам. Всего было доступно десять подтипов продвижения: четыре в категории скидок, четыре в категории BOGO и два в информационной категории.

Набор данных

Доступны три набора данных: Портфолио, Транскрипция и Профиль. .

Портфолио содержит справочный список всех категорий и подтипов рекламных акций, предлагаемых Starbucks.

Стенограмма регистрирует историю транзакций клиента, количество и подтипы отдельных предложений, отправленных клиенту, и предоставляет данные, необходимые для анализа поведения отдельных клиентов. Данные стенограммы были собраны в течение одного месяца.

Профиль содержит демографическую информацию о клиенте (например, пол, возраст, доход и срок членства), и в сочетании с информацией, полученной из данных стенограммы, может использоваться для строить модели прогнозирования поведения клиентов.

Очистка данных

Очистка данных была выполнена для некоторых функций в Портфолио, Транскрипция и Профиль наборов данных.

В Портфолио «каналы» и «тип предложения» были преобразованы в фиктивные функции.

В стенограмме «событие» было преобразовано в фиктивный объект. В «значении» формат ввода различается в зависимости от того, какой тип события он описывает. Я разделил эти записи на отдельные функции. Если значение отражало отдельное событие предложения (например, предложение получено, просмотрено или выполнено), идентификатор, соответствующий подтипу этого единственного предложения, вводился в новый столбец функции, называемый «id». Если значение отражало событие транзакции, сумма транзакции вводилась в новый столбец функции с именем «transaction_amount».

В Профиль было обработано несколько функций. В функции «возраст» 2175 клиентов были указаны как 118 лет (возможно, запись по умолчанию для клиентов, которые не раскрыли свой возраст). Я преобразовал все 118 значений в столбце возраста в значения NaN. В функции «стал_компонент_вон» дата, когда клиент стал участником Starbucks, была записана в восьмизначном формате (например, 20180726 для 26 июля 2018 г.). Я преобразовал это в общее количество дней, в течение которых клиент был членом с восьмизначной контрольной даты, и переименовал функцию в tenure_length. «Пол» был преобразован в фиктивную функцию.

Анализ данных

1. Сегментирование группы клиентов.

Здесь я буду выполнять обработку данных и разработку функций, чтобы сегментировать отзывчивых клиентов от неотзывчивых клиентов для каждой категории продвижения (скидки, BOGO, информационные). Отзывчивый клиент - это тот, кто получает одно предложение и в ответ тратит больше долларов, чем он обычно тратит в Starbucks в течение периода рекламной акции.

На основе данных о транзакции и отдельном предложении (например, полученном, просмотренном или завершенном предложении) я определил часовые расходы (SPH) (см. Ниже) клиента в период проведения рекламной акции и без нее, а также установленный коэффициент. (Promo-SPH / non-Promo-SPH) использовался для выявления отзывчивого клиента. Несколько показателей, используемых для расчета отношения, определены ниже: 1) выбросы, 2) часы осведомленности (время, в течение которого покупатель знал об акции) и 3) SPH для каждой категории продвижения.

Показатели.

  1. Выбросы

В Starbucks основными продуктами являются напитки и выпечка, и большинство транзакций составляют менее 50 долларов (см. Рисунок 1-A). Однако небольшая часть сумм транзакций оказалась на удивление большой (например, превышала 1000 долларов за один платеж, рисунок 1-B). Эти крупные транзакции могли быть обслуживаемыми заказами, на которые вряд ли повлияли рекламные акции, и поэтому они были исключены из анализа здесь.

Чтобы транзакция считалась выпадающей, сумма транзакции должна быть выше порога, определенного методом усеченного межквартильного диапазона (IQR). Если порог, полученный на основе IQR, ниже 50 долларов, то я использовал 50 долларов в качестве порога.

Усеченный IQR был получен путем упорядочивания транзакций клиентов по сумме от высокой к низкой, а затем удаления записей из верхних 20%. Это помогает избежать искусственно завышенного IQR. Порог рассчитывался как удвоенное значение IQR выше значения первого квартиля (Q1) (порог = 2 * IQR + Q1).

2) Часы осведомленности

Важно определить период времени, в течение которого покупатель знал об одном предложении, поскольку именно в этот период рекламная акция может повлиять на покупательское поведение покупателя.

Для категорий скидок и BOGO часы осведомленности определяются временем, когда покупатель просматривал предложение либо 1) когда покупатель завершил предложение (т. Е. Совершил покупку), либо 2) когда срок действия предложения истек (т. Е. Покупка не совершалась). . Для информационной категории часы осведомленности определяются временем, когда покупатель просматривал предложение, до истечения срока действия предложения.

3) Расходы в час (SPH)

Promo-SPH рассчитывалась по категориям (скидка, BOGO или информационная) и определялась по:

Сумма всех обычных транзакций в течение известных часов / Сумма осведомленных часов всех отдельных предложений, которые попадают в категорию

Например, для расчета SPH скидки для клиента сумма всех обычных транзакций, которые имели место в течение периодов времени, попадающих в установленные часы, делится на сумму осведомленных часов отдельных предложений, попадающих в категорию скидки.

Непромо-SPH определяется:

Сумма всех обычных транзакций в часы без уведомления / Сумма часов без уведомления

Выбросы были исключены из всех расчетов SPH.

Выявление отзывчивых клиентов.

Можно ли классифицировать клиента как отзывчивого клиента для данной рекламной категории, определялось соотношением (промо-SPH / не-промо-SPH). Покупатель считается отзывчивым к определенной категории продвижения, если соотношение (промо-SPH / не-промо-SPH) выше 1,04 (для скидки), 1,12 (для BOGO) и 1,00. (для информации).

Вот пример.

Допустим, клиент получил одно предложение в категории скидки (событие A, таблица 1), просмотрел одно предложение (событие C), совершил три транзакции (событие B, D, E и F) и завершил предложение ( событие G). Транзакция B произошла за пределами периода осведомленности и будет исключена из расчета промо-SPH. Транзакция F была идентифицирована как выпадающая и будет исключена из расчета промо-SPH. Транзакции D и E были совершены в установленные часы и будут рассмотрены.

В этом примере:

Discount-SPH = (сумма транзакции события D + сумма транзакции события E) / (отметка времени события G - отметка времени события C)

= ($3.00 + $6.00) / (100–50)

= 0,18 доллара США в час

Если бы не промо-SPH этого клиента составлял 0,10 доллара в час, то соотношение (скидка-SPH / не-промо-SPH) было бы: 0,18 доллара / 0,10 доллара = 1,80.

Поскольку «проходное» соотношение (скидка-SPH / не-промо-SPH) для отзывчивого клиента составляет 1,04, я буду идентифицировать этого клиента как отзывчивого клиента.

Исследовательский анализ данных (EDA).

Краткий обзор возможных взаимосвязей между отзывчивыми клиентами и доступными функциями в профиле («пол», «возраст» и «доход») показал нет корреляции с тем, является ли клиент отзывчивым клиентом (см. пример использования функции «возраст» на рис. 2). «Срок пребывания в должности» показал незначительные различия между положительными ответами (Рисунок 3).

Комментарии.

Здесь не использовались сложные алгоритмы прогнозирования, но базовая обработка и анализ данных могут эффективно сегментировать группу клиентов на отзывчивых клиентов и неотзывчивых клиентов.

2. Прогнозирование поведения новых клиентов.

Здесь я буду использовать машинное обучение, чтобы построить модель для прогнозирования того, как новый клиент отреагирует на определенную категорию продвижения (скидка, BOGO, информационная). Новый клиент - это новый участник «Мобильного приложения Starbucks» с основными данными профиля, но без предыдущей транзакции в Starbucks. Основываясь на данных профиля этих клиентов, я построил три модели классификатора (по одной для каждой рекламной категории), чтобы предсказать, станет ли новый участник отзывчивым клиентом для определенной рекламной категории.

Первоначальное сканирование алгоритма.

Первоначальное сканирование семи алгоритмов, включая логистическую регрессию, линейный дискриминантный анализ, K-ближайших соседей, машину опорных векторов (SVM), AdaBoost (Ada), случайный лес (RF) и XGBoost (XGB), показало, что RF имеет лучшее представление. Для оценки производительности использовалась оценка F1, поскольку она отражает ошибки как типа I, так и типа II.

Если возникает ошибка типа I, означающая, что отзывчивый клиент, по прогнозам, будет неотзывчивым клиентом, то количество отзывчивых клиентов будет недооценен. Если торговая кампания спроектирована на основе модели прогнозирования с этой ошибкой, то вознаграждение за продвижение Starbucks может быть установлено на уровне, который не максимизирует потенциальный рост продаж.

Если возникает ошибка типа II, означающая, что неотзывчивый клиент, по прогнозам, будет отзывчивым клиентом, то количество отзывчивых клиентов будет завышено. . Если торговая кампания спроектирована на основе модели прогнозирования с этой ошибкой, больше клиентов будут получать вознаграждение от рекламной акции, не способствуя росту продаж, и Starbuck может потерять доход.

Оптимизация гиперпараметров модели.

Оптимизированы самые эффективные модели из Ada, SVM, RF и XGB. Оптимизированные модели для скидки и BOGO не показали улучшений, а модели для информации показали умеренное улучшение.

Производительность.

Были собраны баллы F1 для тестовых наборов скидки (0,65), BOGO (0,67) и информации (0,53).

Важные функции.

«Продолжительность владения» была определена как наиболее важная характеристика для отличия отзывчивых клиентов от неотзывчивых клиентов для всех категорий рекламных акций. Но поскольку «продолжительность владения» всегда будет равняться нулю дней для любого нового клиента, эта функция не будет полезным отличительным показателем. «Возраст», «пол» и «доход» не отличались друг от друга.

Комментарии.

Учитывая базовую информацию о профиле нового клиента, совпадение покупателя с продвижением невозможно предсказать с помощью моделей машинного обучения. Дополнительные характеристики, такие как род занятий, уровень образования или местонахождение клиентов, могут быть собраны, чтобы помочь разработать более эффективную модель прогнозирования (хотя дополнительный сбор данных может снизить качество обслуживания клиентов).

3. Определение характеристик успешного продвижения.

Здесь я использую обработку данных для определения успешности подтипа продвижения. Успешное единичное предложение должно соответствовать следующим критериям: 1) транзакция происходит после того, как отдельное предложение было просмотрено, и 2) клиент тратит большую сумму, чем требуется по рекламному предложению.

Коэффициент успешности подтипа продвижения рассчитывался по:

количество успешных одиночных предложений / общее количество разовых предложений

Исследовательский анализ данных (EDA).

Был рассчитан коэффициент успешности для всех десяти подтипов продвижения, который находится в диапазоне от 17,5% до 61,0%, что не показывает заметной зависимости от категории продвижения (см. Таблицу 2). Кроме того, были вычислены точечные бисериальные корреляции между функциями подтипа предложения и степенью успеха (рис. 4).

Выбор канала (например, социальные сети, мобильное приложение, веб-страница и электронная почта) для доставки отдельных предложений является определяющим фактором для успешного продвижения (см. Рисунок 4). Для каждого подтипа использовался фиксированный набор каналов для рассылки отдельных предложений, и те, которые распространялись через социальные сети и мобильные приложения Starbucks, имели самые высокие показатели успеха.

Уровень успеха также коррелирует с более низкими требованиями к покупке; т. е. чем меньше сумма, которую должен заплатить покупатель, или меньше товаров, которые покупатель должен приобрести до того, как начнут действовать вознаграждения, тем успешнее будет продвижение (см. рисунок 3). Например, на той же основе предоставления «20% вознаграждения» предложение подтипа, которое требует от клиента «потратить 5 долларов и получить 1 доллар», будет более эффективным, чем рекламная акция «потратьте 20 долларов и получите скидку 4 доллара».

Комментарии.

Успешное продвижение может попасть в любую категорию, но определяющими факторами для высокого уровня успеха являются выбор канала для отправки отдельных предложений и барьер вознаграждения.

Рекомендуемые действия для Starbucks

Ниже перечислены некоторые рекомендуемые действия для увеличения краткосрочных продаж в период проведения рекламных акций.

1. Чтобы максимально увеличить отклик клиентов:

  • Соберите данные от существующих участников за определенный период времени, определите соответствие категории от клиента к категории продвижения для отдельных клиентов и соответствующим образом отправьте отдельные предложения.

2. Чтобы спрогнозировать поведение новых клиентов:

  • Дополнительные данные (например, род занятий, уровень образования, местонахождение) могут быть запрошены в разделе профиля, когда новый клиент регистрируется, чтобы стать членом Starbucks, чтобы проверить возможные функции, которые могут способствовать совпадению покупателя с промотино.

3. Чтобы максимально увеличить вероятность успеха отдельных предложений:

  • Отправляйте разовые предложения через социальные сети и мобильное приложение.
  • Предлагайте скидки и рекламные акции BOGO с низкими требованиями к покупке.

Что дальше?

Один интересный эксперимент, который можно провести, может заключаться в рассылке отдельных предложений, предлагающих покупателю «выбрать свое собственное продвижение». Например, одно предложение может содержать возможность использовать подтип скидки, подтип BOGO или получить первое представление о новых или сезонных продуктах. Поскольку клиентам предоставляется возможность «выбирать», подобное продвижение привлечет клиентов и раскроет понимание того, что нравится каждому клиенту, что будет способствовать поиску улучшенного соответствия между покупателем и продвижением. Возможно, интересная идея для проверки?

Спасибо, что прочитали мой пост. Пожалуйста, смотрите мой репозиторий GitHub для получения подробной информации о работе, представленной здесь.