Я хочу выполнить анализ кластеризации k-средств на наборе из 10 точек данных, каждая из которых имеет массив из 4 связанных с ними числовых значений. Я использую коэффициент корреляции Пирсона в качестве метрики расстояния. Я выполнил первые два шага алгоритма кластеризации k средних, а именно:
1) Выберите набор начальных центров из k кластеров. [Я произвольно выбрал два начальных центра]
2) Назначьте каждый объект кластеру с ближайшим центром. [Я использовал коэффициент корреляции Пирсона в качестве показателя расстояния - см. Ниже]
Теперь мне нужна помощь в понимании 3-го шага алгоритма:
3) Вычислите новые центры кластеров:
где X, в данном случае - 4-мерный вектор, а n - количество точек данных в кластере.
Как я могу рассчитать C (S), скажем, для следующих данных?
# Cluster 1
A 10 15 20 25 # randomly chosen centre
B 21 33 21 23
C 43 14 23 23
D 37 45 43 49
E 40 43 32 32
# Cluster 2
F 100 102 143 212 #random chosen centre
G 303 213 212 302
H 102 329 203 212
I 32 201 430 48
J 60 99 87 34
Последним шагом алгоритма k средних является повторение шагов 2 и 3 до тех пор, пока ни один объект не изменит кластер, что достаточно просто.
Мне нужна помощь с шагом 3. Вычисление новых центров кластеров. Если бы кто-нибудь мог пройти и объяснить, как вычислить новый центр только одного из кластеров, это очень помогло бы мне.