KMeans — один из наиболее широко используемых алгоритмов кластеризации. Вот два распространенных вопроса о KMeans, которые, как мне кажется, должен знать каждый.

Почему K-средние страдают от проклятия размерности?

Причина, по которой это происходит, заключается в том, что по мере того, как ваши размеры продолжают расти, минимальное евклидово расстояние между точками данных продолжает расти из-за увеличения размеров, а поскольку размеры стремятся к бесконечности, минимальное расстояние сходится. Это означает, что максимальное и минимальное расстояние между любыми двумя точками будет одинаковым.

Вот почему мы используем PCA или другие методы уменьшения размерности, чтобы выбрать измерения, которые вносят максимальный вклад в дисперсию, то есть измерения, в которых данные наиболее разбросаны и, таким образом, предоставляют полезную информацию для кластеризации.

Как выбрать «хороший» K в KMeans?

Идеальным K для кластеризации наших точек данных будет тот, в котором все точки данных одного кластера расположены близко друг к другу и имеется достаточно кластеров для эффективного разделения данных. Один из способов найти подходящее значение — вычислить среднее расстояние до центра тяжести для каждого кластера.

Этот график показывает, как изменяется среднее расстояние между кластерами при увеличении k. Мы ищем изгиб на этом графике, где среднее расстояние перестает резко уменьшаться с увеличением k. Это наиболее подходящий k, потому что его увеличение на самом деле не захватит никаких дополнительных кластеров в данных, потому что это способствовало бы резкому сокращению среднего расстояния, если бы точки были сгруппированы далеко от существующего центроида.

Некоторые из этих концепций были взяты из книги инженера по машинному обучению Udacity nanograde.

Наглость