Как работают правила ассоциации

Анализ ассоциативных правил на базовом уровне включает использование моделей машинного обучения для анализа данных на наличие шаблонов или совпадений в базе данных. Он определяет частые ассоциации "если-то", которые сами по себе являются правилами ассоциации. Ассоциативное правило состоит из двух частей: антецедент (если) и консеквент (тогда). Антецедент — это элемент, найденный в данных. Консеквент — это элемент, найденный в сочетании с антецедентом.

Правила ассоциации создаются путем поиска в данных частых шаблонов «если-то» и использования критериев поддержка и доверие для выявления наиболее важных взаимосвязей. .

Правила ассоциации рассчитываются на основе наборов элементов, состоящих из двух или более элементов. Если правила строятся на основе анализа всех возможных наборов элементов, может быть так много правил, что правила не имеют большого значения. При этом правила ассоциации обычно создаются из правил, хорошо представленных в данных.

Что такое априорный алгоритм?
Априорный алгоритм — это один из алгоритмов, используемых для данных транзакций в обучении правилам ассоциации. Это позволяет нам анализировать часто встречающийся набор товаров, чтобы сгенерировать правило ассоциации между ними.
Пример: список продуктов, покупаемых клиентами, сведения о продуктах, которые часто покупают вместе, и т. д.

Априорный алгоритм обучения правилам ассоциации

Показатели оценки правил

  • Поддержка указывает, как часто элементы появляются в данных. Количество наблюдений, включающих элементы в частях {X} и {Y} правила, в процентах от общего количества наблюдений. Это мера того, как часто набор элементов встречается вместе в процентах от всех наблюдений.
  • Support(X/Y)=Support Freq(X/Y)/N(Total Observation)
    Он интерпретируется как доля транзакций, содержащих как X, так и Y.
  • Надежность показывает, сколько раз утверждения «если-то» оказываются верными. Это отношение количества транзакций, включающих все элементы в {B}, а также количество транзакций, включающих все элементы в {A} к количеству транзакций, которое включает все элементы в {A}.
  • Достоверность (X, Y) = Частота (X, Y) / Частота (X)
    Он измеряет, как часто каждый элемент Y появляется в транзакциях, которые также содержат элементы X.
  • Подъем можно использовать для сравнения достоверности с ожидаемой достоверностью или того, сколько раз ожидается, что утверждение "если-то" окажется истинным.
  • Подъем (x => y) — это не что иное, как «интересность» или вероятность того, что товар y будет куплен, когда товар x продано. В отличие от достоверности (x =› y), этот метод учитывает популярность элемента y.
    Подъем (x=› y) = 1 означает, что внутри набора элементов нет корреляции.
  • Подъем (x =› y) › 1 означает наличие положительной корреляции внутри набора элементов, т. е. продуктов в наборе элементов, x и y, скорее всего, будут куплены вместе.
  • Подъем (x =› y) ‹ 1 означает, что внутри набора товаров существует отрицательная корреляция, т. е. продукты в наборе товаров, x и y вряд ли можно купить вместе.

Убеждение

Убеждение правила может быть определено следующим образом:

  • Conv(x =› y) = 1 означает, что x не имеет отношения к y.
  • Чем больше убежденность, тем выше интерес к правилу.

Подводя итог, какие формулы вы можете просмотреть на схеме ниже.

Имея более подробную информацию об априорном алгоритме, вы можете найти ниже пример, который представляет собой пошаговый набор данных продуктового магазина.

Шаг 1:

Импортируйте набор данных и библиотеки, которые необходимо использовать, а затем углубитесь в данные, чтобы получить информацию о значениях.

Шаг 2 :

Значения должны быть разделены, чтобы реализовать кодировщик транзакций.

Шаг 3 :

Реализация кодировщика транзакций

Основная цель использования Transaction Encoder — реализовать данные для априорного алгоритма.

Шаг 4:

Создайте априорную модель. Кроме того, создана новая функция с именем «Длина», чтобы отслеживать, сколько элементов у нас есть в каждой строке наборов элементов. Также указано минимальное значение поддержки, состоящее из минимального порога

Шаг 5:

Визуализация результатов

Когда дело доходит до априорных показателей оценки, вы можете легко вдаваться в подробности о продуктах, которые коррелируют друг с другом. Например, Мы оцениваем взаимосвязь между (Кофе,Петух) и (Печенье). Во-первых (Кофе,Петух) поддержка 0,15 (Бисквит) 0,35. Два из них имеют поддержку как 0.10. Я имею в виду, что когда дело доходит до всех покупок, у 10% всех клиентов в ведре есть (Кофе,Петух) и (Печенье). Кроме того, клиент, который купил (Кофе,Петух), также купил (Печенье) с вероятностью 67%. Согласно метрике подъема, которую мы имеем в отношении (Кофе,Петух) и (Печенье), мы приходим к выводу, что продажи продуктов (Печенье) увеличиваются в 1,90 раза при покупках с (Кофе,Петух).

В результате благодаря априорному алгоритму мы находим связь между разными элементами.

Ссылки:
1. https://www.geeksforgeeks.org/apriori-algorithm/

2. https://www.techtarget.com/searchbusinessanalytics/definition/association-rules-in-data-mining#:~:text=Association%20rules%20are%20created%20by,items%20appear%20in%20% 20данные.