Измерение надежности дерева/дендрограммы (Traminer)

Я провел анализ с помощью TraMineR, чтобы измерить сходство между последовательностями пространственного использования (например, сельская местность (R) и городская (U): пример последовательности -> RRRRRUUURRUUU). Требование в моем анализе состоит в том, что состояния сравниваются в один и тот же момент. во времени, и поэтому я использовал сходство последовательности Хэмминга. На основе матрицы подобия я создал дендрограмму, показывающую расстояния между отдельными последовательностями, помогающую выявить «поведенческие сходства» при последовательном пространственном использовании. Теперь я ищу способ рассчитать надежность или надежность дерева. Есть ли у кого-нибудь идея, как я могу рассчитать дерево начальной загрузки (со значениями начальной загрузки, указанными вдоль ветвей)?

С уважением,

Йоханнес


person jedgroev    schedule 01.10.2014    source источник


Ответы (1)


В пакете fpc есть функция clusterboot, которую можно использовать для оценки стабильности процедуры кластеризации. Его можно использовать следующим образом:

library(TraMineR)
data(mvad)
##Use some sequence data to illustrate
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
## Compute Hamming distances
ham <- seqdist(mvad.seq, method="HAM")
library(fpc)
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
print(cf2)

Страница справки clusterboot содержит следующие рекомендации по интерпретации значений.

Есть некоторое теоретическое обоснование для того, чтобы рассматривать значение сходства Жаккара меньше или равное 0,5 как указание на «растворенный кластер», см. Hennig (2008). Как правило, действительный, стабильный кластер должен давать среднее значение сходства по Жаккару 0,75 или более. Между 0,6 и 0,75 кластеры можно рассматривать как указывающие на закономерности в данных, но весьма сомнительно, какие именно точки должны принадлежать этим кластерам. Ниже среднего значения Жаккара 0,6 кластерам не следует доверять. «Высокостабильные» кластеры должны давать среднее сходство по Жаккару 0,85 и выше.

Наличие стабильной процедуры кластеризации не означает, что кластеризация хорошая. Вас также может заинтересовать показатель качества кластера. В этом случае вы можете использовать пакет WeightedCluster, см. здесь: http://mephisto.unige.ch/weightedcluster/

person Matthias Studer    schedule 01.10.2014