Что такое иерархическая кластеризация (агломерация)?
Кластеризация - это метод интеллектуального анализа данных, позволяющий сгруппировать набор объектов таким образом, чтобы объекты в одном кластере были более похожи друг на друга, чем на объекты в других кластерах.
В иерархической кластеризации мы назначаем каждый объект (точку данных) отдельному кластеру. Затем вычислите расстояние (сходство) между каждым из кластеров и присоедините два наиболее похожих кластера. Давайте разберемся дальше на решении примера.
Цель: для одномерного набора данных {7,10,20,28,35} выполнить иерархическую кластеризацию и построить дендограмму для ее визуализации.
Решение. Во-первых, давайте визуализируем данные.
Наблюдая за графиком выше, можно интуитивно сделать вывод, что:
- Первые две точки (7 и 10) расположены близко друг к другу и должны находиться в одном кластере.
- Кроме того, две последние точки (28 и 35) расположены близко друг к другу и должны находиться в одном кластере.
- Кластер центральной точки (20) не так просто сделать
Давайте решим проблему вручную, используя оба типа агломеративной иерархической кластеризации:
- Одиночная связь. В иерархической кластеризации с одной связью мы объединяем на каждом этапе два кластера, два ближайших элемента которых имеют наименьшее расстояние.
При одинарном соединении формируются два кластера:
Кластер 1: (7,10)
Кластер 2: (20,28,35)
2. Полная связь. При полной иерархической кластеризации ссылок мы объединяем элементы кластеров на каждом этапе, что обеспечивает наименьшее максимальное попарное расстояние.
При полном соединении формируются два кластера:
Кластер 1: (7,10,20)
Кластер 2: (28,35)
Вывод. Иерархическая кластеризация в основном используется, когда приложению требуется иерархия, например, создание таксономии. Однако они дороги с точки зрения вычислительных требований и требований к хранению.
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
Подключиться к LinkedIn