Правила ассоциации можно рассматривать как отношение «если-то».
ARM (Association Rule Mining) — один из важных методов в науке о данных. В ARM частота шаблонов и ассоциаций в наборе данных определяется среди наборов элементов, а затем используется для прогнозирования следующего соответствующего элемента в наборе. Этот метод ARM в основном используется при принятии бизнес-решений в зависимости от покупок клиентов.
Предположим, что товар A покупается покупателем, тогда выясняются шансы на то, что товар B будет выбран покупателем с тем же идентификатором транзакции.
Например, люди, которые покупают подгузники, скорее всего, купят детскую присыпку. Или мы можем перефразировать утверждение, сказав: Если (Люди покупают подгузники), То (они покупают детскую присыпку).
Обратите внимание на правило "если, то".
Это не обязательно означает, что если люди покупают детскую присыпку, они покупают и подгузники. В целом, мы можем сказать, что если состояние А тяготеет к Б, это не обязательно означает, что Б тяготеет к А. Следите за направленностью!.
Эти правила состоят из двух элементов:
Первый — это — Антецедент (IF): это элемент/группа элементов, которые обычно находятся в наборах элементов или наборах данных.
Второе — это — следствие (THEN): это появляется как элемент с антецедентом/группой антецедентов.
Есть три способа измерения ассоциации:
- Поддержка: указание того, как часто набор элементов появляется в наборе данных.
2. Надежность: показатель того, как часто правила оказывались верными.
3. Подъем: более высокие значения подъема (›1) указывают на более сильную связь между X и Y, и они зависят друг от друга.
Теперь, когда мы понимаем, как количественно оценить важность ассоциации продуктов в наборе элементов, следующим шагом будет создание правил из всего списка элементов и определение наиболее важных из них.
Это не так просто, как может показаться.
Супермаркеты будут иметь тысячи различных продуктов в магазине. После некоторых простых вычислений можно показать, что всего 10 продуктов приведут к 50000+ правил! И это число увеличивается в геометрической прогрессии с увеличением количества предметов. Поиск значений подъема для каждого из них будет очень затратным в вычислительном отношении.
Как справиться с этими проблемами?? Как составить набор наиболее важных правил ассоциации??
В этом нам на помощь приходит априорный алгоритм.
Априорный алгоритм.
Априорный алгоритм — это классический алгоритм, используемый в области интеллектуального анализа данных для интеллектуального анализа правил ассоциации. Он анализирует часто используемые наборы элементов и соответствующие правила ассоциации среди реляционных баз данных, которые могут содержать большое количество транзакций. Он строится на ассоциациях и корреляциях между наборами элементов.
Алгоритм Apriori в основном применяется в таких областях, как анализ потребительской корзины, чтобы помочь клиентам с легкостью приобретать товары и услуги и увеличить продажи для продавцов.
Apriori использует подход «снизу вверх», когда частые подмножества расширяются по одному элементу за раз (шаг называется кандидатом), а группы кандидатов проверяются на данных. Алгоритм завершается, когда не найдено будущего успешного расширения.
Пример 1.
Рассмотрим следующую базу данных, где каждая строка — это транзакция, а каждая ячейка — отдельный элемент транзакции:
Правила ассоциации, которые можно определить из этой базы данных, следующие:
- 100% наборов с альфой также содержат бету.
- 50% наборов с альфой, бетой тоже имеют эпсилон.
- 50% сетов с альфой, бетой также имеют тету.
мы также можем проиллюстрировать это на множестве примеров.
Ограничения:
- Алгоритм сканирует базу данных слишком много раз, что снижает общую производительность. В связи с этим алгоритм предполагает, что база данных постоянно находится в памяти.
- Временная и пространственная сложность этого алгоритма очень высока.
- Алгоритмы, такие как Max_Miner, пытаются идентифицировать максимально часто встречающиеся наборы элементов без перечисления их подмножеств и выполняют «прыжки» в пространстве поиска, а не восходящий подход.