В пакете fpc
есть функция clusterboot
, которую можно использовать для оценки стабильности процедуры кластеризации. Его можно использовать следующим образом:
library(TraMineR)
data(mvad)
##Use some sequence data to illustrate
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
## Compute Hamming distances
ham <- seqdist(mvad.seq, method="HAM")
library(fpc)
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
print(cf2)
Страница справки clusterboot
содержит следующие рекомендации по интерпретации значений.
Есть некоторое теоретическое обоснование для того, чтобы рассматривать значение сходства Жаккара меньше или равное 0,5 как указание на «растворенный кластер», см. Hennig (2008). Как правило, действительный, стабильный кластер должен давать среднее значение сходства по Жаккару 0,75 или более. Между 0,6 и 0,75 кластеры можно рассматривать как указывающие на закономерности в данных, но весьма сомнительно, какие именно точки должны принадлежать этим кластерам. Ниже среднего значения Жаккара 0,6 кластерам не следует доверять. «Высокостабильные» кластеры должны давать среднее сходство по Жаккару 0,85 и выше.
Наличие стабильной процедуры кластеризации не означает, что кластеризация хорошая. Вас также может заинтересовать показатель качества кластера. В этом случае вы можете использовать пакет WeightedCluster
, см. здесь: http://mephisto.unige.ch/weightedcluster/
person
Matthias Studer
schedule
01.10.2014