Apriori, arulesSequences, в R: поддерживает ли он последовательность корзин (порядок в рамках одного похода за покупками не имеет значения)?

Я начинаю работу с arulesSequences с целью выполнить частый анализ последовательностей некоторых данных, которые у меня есть. Данные для магазина А выглядят следующим образом:

CUSTOMER_ID seq_num Размер buy_items

1 17399 1 2 {100,100}

2 17399 2 1 {800}

3 17399 3 2 {900,900}

4 17399 4 1 {405}

5 17399 5 4 {200,505,200,505}

Это означает, что этот клиент № 17399 совершал покупки в этом магазине A несколько раз. Во время своего первого похода за покупками этот человек купил товары с кодами товаров 100 и 100 (2 товара). Во время своего второго похода за покупками этот клиент купил только товар 800. И так далее.

Теперь я хочу использовать cSPADE для этого клиента, где порядок не имеет значения в «корзине», но имеет значение для походов по магазинам. Итак, в конечном итоге моя запись для клиента 17399 будет:

CUSTOMER_ID купил_элементов

17399 {(100,100),800,(900,900),405,(200,505,200,505)}

Где {} содержит полную последовательность, а () представляет каждый поход в магазин.

Я понимаю, что в целом это возможно. Однако я не видел никаких примеров (несколько часов поиска) или заметок, явно говорящих о arulesSequences, поддерживающих это. Есть какие-нибудь мысли? Был бы признателен за помощь.

Спасибо за ваше время.


person ednaMode    schedule 11.01.2016    source источник


Ответы (1)


После нескольких часов изучения я добавляю найденный ответ на случай, если он будет полезен другим.

Ответ положительный — в пакете есть поддержка повторяющихся элементов в корзинах. Собственно пример на этом сайте: https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Sequence_Mining/SPADE показывает этот случай. Хотя в этом примере нет двух одинаковых порядковых номеров (принадлежащих одной и той же транзакции), в них есть перекрывающиеся элементы. Даже если бы они были одинаковыми (я играл с примером input .txt ), нет ошибки при использовании read_basket и cSPADE, что я и пытался применить.

Множество примеров в Интернете предназначены для априори, для которых повторение элементов в корзине не допускается. Это вызывает много путаницы. Приведенный выше пример является хорошим примером использования cSPADE. Надеюсь, это поможет людям.

person ednaMode    schedule 11.01.2016