Правила ассоциации можно рассматривать как отношение «если-то».

ARM (Association Rule Mining) — один из важных методов в науке о данных. В ARM частота шаблонов и ассоциаций в наборе данных определяется среди наборов элементов, а затем используется для прогнозирования следующего соответствующего элемента в наборе. Этот метод ARM в основном используется при принятии бизнес-решений в зависимости от покупок клиентов.

Предположим, что товар A покупается покупателем, тогда выясняются шансы на то, что товар B будет выбран покупателем с тем же идентификатором транзакции.

Например, люди, которые покупают подгузники, скорее всего, купят детскую присыпку. Или мы можем перефразировать утверждение, сказав: Если (Люди покупают подгузники), То (они покупают детскую присыпку).

Обратите внимание на правило "если, то".

Это не обязательно означает, что если люди покупают детскую присыпку, они покупают и подгузники. В целом, мы можем сказать, что если состояние А тяготеет к Б, это не обязательно означает, что Б тяготеет к А. Следите за направленностью!.

Эти правила состоят из двух элементов:

Первый — это — Антецедент (IF): это элемент/группа элементов, которые обычно находятся в наборах элементов или наборах данных.

Второе — это — следствие (THEN): это появляется как элемент с антецедентом/группой антецедентов.

Есть три способа измерения ассоциации:

  1. Поддержка: указание того, как часто набор элементов появляется в наборе данных.

2. Надежность: показатель того, как часто правила оказывались верными.

3. Подъем: более высокие значения подъема (›1) указывают на более сильную связь между X и Y, и они зависят друг от друга.

Теперь, когда мы понимаем, как количественно оценить важность ассоциации продуктов в наборе элементов, следующим шагом будет создание правил из всего списка элементов и определение наиболее важных из них.

Это не так просто, как может показаться.

Супермаркеты будут иметь тысячи различных продуктов в магазине. После некоторых простых вычислений можно показать, что всего 10 продуктов приведут к 50000+ правил! И это число увеличивается в геометрической прогрессии с увеличением количества предметов. Поиск значений подъема для каждого из них будет очень затратным в вычислительном отношении.

Как справиться с этими проблемами?? Как составить набор наиболее важных правил ассоциации??

В этом нам на помощь приходит априорный алгоритм.

Априорный алгоритм.

Априорный алгоритм — это классический алгоритм, используемый в области интеллектуального анализа данных для интеллектуального анализа правил ассоциации. Он анализирует часто используемые наборы элементов и соответствующие правила ассоциации среди реляционных баз данных, которые могут содержать большое количество транзакций. Он строится на ассоциациях и корреляциях между наборами элементов.

Алгоритм Apriori в основном применяется в таких областях, как анализ потребительской корзины, чтобы помочь клиентам с легкостью приобретать товары и услуги и увеличить продажи для продавцов.

Apriori использует подход «снизу вверх», когда частые подмножества расширяются по одному элементу за раз (шаг называется кандидатом), а группы кандидатов проверяются на данных. Алгоритм завершается, когда не найдено будущего успешного расширения.

Пример 1.

Рассмотрим следующую базу данных, где каждая строка — это транзакция, а каждая ячейка — отдельный элемент транзакции:

Правила ассоциации, которые можно определить из этой базы данных, следующие:

  1. 100% наборов с альфой также содержат бету.
  2. 50% наборов с альфой, бетой тоже имеют эпсилон.
  3. 50% сетов с альфой, бетой также имеют тету.

мы также можем проиллюстрировать это на множестве примеров.

Ограничения:

  1. Алгоритм сканирует базу данных слишком много раз, что снижает общую производительность. В связи с этим алгоритм предполагает, что база данных постоянно находится в памяти.
  2. Временная и пространственная сложность этого алгоритма очень высока.
  3. Алгоритмы, такие как Max_Miner, пытаются идентифицировать максимально часто встречающиеся наборы элементов без перечисления их подмножеств и выполняют «прыжки» в пространстве поиска, а не восходящий подход.