Ссылка на программу и наборы данных приведена ниже

Анализ рыночной корзины помогает компаниям понять, как их клиенты совершают покупки. Цель состоит в том, чтобы помочь настроить рекламные акции, программы лояльности и макет магазина.

Что такое анализ рыночной корзины?

Анализ рыночной корзины изучает концепцию аффинити. Сходство - это естественная симпатия или понимание чего-либо. Это также может означать степень, в которой что-то сочетается с другим. Для проведения анализа рыночной корзины нам нужен набор данных о транзакциях. Каждая транзакция состоит из группы продуктов, которые были куплены вместе. Допустим, я пошел в супермаркет и купил йогурт, молоко, ручки, сыр и бумагу. Эти товары были куплены за одну транзакцию. Затем транзакции собираются и анализируются для определения правил ассоциации.

Итак, как мы можем определить силу ассоциации? Чтобы ответить на этот вопрос, нам нужно рассмотреть три показателя:

  • Поддержка. Этот показатель показывает, как часто товары появляются в наборе данных. Например, если у нас есть десять транзакций, а ручки появляются в семи транзакциях, то поддержка составляет 7/10, что составляет 70%. Предпочтительны высокие проценты поддержки, поскольку они указывают на то, что ассоциация, вероятно, применима к большому количеству будущих транзакций.

Поддержка (X - ›Y) = Поддержка (X ∪ Y)

  • Достоверность: этот показатель указывает на вероятность того, что транзакции, содержащие определенный продукт (X), также будут содержать продукт (Y) {X - ›Y}. Итак, уверенность X - ›Y = Pr (X&Y) / Pr (X). Проблема с этой метрикой заключается в том, что уверенность может быть завышена, если и X, и Y являются популярными или часто покупаемыми товарами. Итак, нам нужно найти способ контролировать популярность Y.

Уверенность (X - ›Y) = Поддержка (X -› Y) / Поддержка (X)

  • Рост: этот показатель указывает на вероятность того, что Y будет приобретен, когда X приобретен, при этом контролируя популярность Y. Чтобы контролировать популярность Y, нам нужно измерить вероятность всех продуктов в правило, встречающееся вместе, и разделите его на произведение вероятностей продуктов, как если бы между ними не было никакой связи. Например, если молоко и сыр вместе приходятся на 2% всех транзакций, молоко - в 15% транзакций и сыр - в 5% транзакций, то рост составляет: 0,02 / (0,15 * 0,05) = 2,7. Значение подъемной силы, равное единице, указывает на то, что продукты X и Y не зависят друг от друга. Нам следует искать значения подъемной силы больше единицы, потому что эти значения означают, что предмет Y, скорее всего, будет куплен, если предмет X будет куплен. Чем больше подъемник, тем больше связь между двумя продуктами.

Подъем (X - ›Y) = Поддержка (X -› Y) / Поддержка (X) * Поддержка (Y)

Анализ рыночной корзины призван дать ответы на следующие вопросы:

  • Каковы модели покупок? (Товары, приобретаемые вместе / последовательно / сезонно)
  • Какие продукты могут получить выгоду от рекламы?
  • Почему клиенты покупают определенные товары?
  • В какое время дня они его покупают?
  • Кто заказчики? (Студенты, семьи и т. Д.)

Работа алгоритма априори

Поиск часто встречающихся наборов элементов - одна из наиболее исследуемых областей интеллектуального анализа данных. Алгоритм Apriori является наиболее распространенным алгоритмом для майнинга часто встречающихся наборов элементов (FIM).

Определение часто встречающихся наборов товаров

Набор предметов, который появляется во многих корзинах, считается «частым». Чтобы быть формальным, мы предполагаем, что существует число s, называемое порогом поддержки. Если I - это набор элементов, поддержка I - это количество корзин, для которых I является подмножеством. Мы говорим, что I встречается часто, если его поддержка составляет s или больше.

Пример:

Давайте рассмотрим простой пример. Рассмотрим транзакции по следующим позициям

Затем рассмотрим правило, согласно которому элемент / набор предметов покупается часто, если это происходит не менее чем в 50% случаев. Так что здесь его надо покупать минимум 2 раза.

Для простоты давайте сокращаем элементы следующим образом;

Яблоко-А

Манго-М

Груши-П

Капуста-Ca

Морковь-Cr

Итак, таблица теперь становится

Шаг 1. Подсчитайте количество транзакций, связанных с каждым элементом

Шаг 2. Теперь удалите все товары, которые были куплены менее 2 раз. Таким образом, новая таблица становится

Шаг 3. Начните составлять пары элементов из шага 2 друг с другом

Примечание. Наборы элементов PM, CaP, CrP совпадают с MP, PCa, PCr, поэтому они не включены в шаг 3.

Шаг 4: Теперь мы подсчитываем, сколько раз каждая пара, как показано на шаге 3, встречается в таблице 1.

Шаг 5. Посмотрите на вопрос - в нем говорится, что учитывайте, что набор товаров приобретается не менее 2 раз или 50% случаев.

Применение этого правила на шаге 4 приведет к уменьшению таблицы до следующего:

Итак, эта таблица показывает, что следующие предметы MP (манго и груши), MCa (манго и капуста) и MCr (манго и морковь) покупаются вместе как минимум в 50% случаев.

Программа для реализации анализа рыночной корзины с использованием набора данных о бакалейных товарах:

Шаг 1: Загрузите необходимые пакеты.

Сначала мы загрузим пакеты, необходимые для нашей программы.

  • Arules - предоставляет инфраструктуру для представления, обработки и анализа данных и шаблонов транзакций (частые наборы элементов и правила ассоциации).
  • ArulesViz - реализует несколько известных и новых методов визуализации для изучения ассоциативных правил.
  • Наборы данных - этот пакет содержит множество наборов данных.

Шаг 2. Прочтите набор данных о бакалейных товарах

Шаг 3. Теперь давайте взглянем на 10 основных элементов нашего набора данных.

Шаг 4: Последний шаг - сгенерировать правила с соответствующей поддержкой и уверенностью, используя алгоритм Apriori в библиотеке Arules.

Ввод: -

Вывод: -

Шаг 5. Теперь удалите повторяющиеся правила, присутствующие в наборе данных.

Ввод: -

Вывод: -

Шаг 6: Наконец, отобразите график для анализа рыночной корзины / правил ассоциации.

Нажмите здесь, чтобы загрузить программу и наборы данных…