Что такое иерархическая кластеризация (агломерация)?

Кластеризация - это метод интеллектуального анализа данных, позволяющий сгруппировать набор объектов таким образом, чтобы объекты в одном кластере были более похожи друг на друга, чем на объекты в других кластерах.

В иерархической кластеризации мы назначаем каждый объект (точку данных) отдельному кластеру. Затем вычислите расстояние (сходство) между каждым из кластеров и присоедините два наиболее похожих кластера. Давайте разберемся дальше на решении примера.

Цель: для одномерного набора данных {7,10,20,28,35} выполнить иерархическую кластеризацию и построить дендограмму для ее визуализации.

Решение. Во-первых, давайте визуализируем данные.

Наблюдая за графиком выше, можно интуитивно сделать вывод, что:

  1. Первые две точки (7 и 10) расположены близко друг к другу и должны находиться в одном кластере.
  2. Кроме того, две последние точки (28 и 35) расположены близко друг к другу и должны находиться в одном кластере.
  3. Кластер центральной точки (20) не так просто сделать

Давайте решим проблему вручную, используя оба типа агломеративной иерархической кластеризации:

  1. Одиночная связь. В иерархической кластеризации с одной связью мы объединяем на каждом этапе два кластера, два ближайших элемента которых имеют наименьшее расстояние.

При одинарном соединении формируются два кластера:

Кластер 1: (7,10)

Кластер 2: (20,28,35)

2. Полная связь. При полной иерархической кластеризации ссылок мы объединяем элементы кластеров на каждом этапе, что обеспечивает наименьшее максимальное попарное расстояние.

При полном соединении формируются два кластера:

Кластер 1: (7,10,20)

Кластер 2: (28,35)

Вывод. Иерархическая кластеризация в основном используется, когда приложению требуется иерархия, например, создание таксономии. Однако они дороги с точки зрения вычислительных требований и требований к хранению.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Подключиться к LinkedIn