Иерархическая кластеризация является одним из методов кластеризации. Как видно из происхождения термина, этот алгоритм создает одну иерархическую диаграмму.

Иерархическая кластеризация имеет в основном два типа. Один агломеративный, другой разделительный.

1.Агломеративный

Слово «агломеративный» означает собирать или собирать в кластер или массу.

В этом методе все данные изначально рассматриваются как один кластер. Затем он соединяет похожие данные вместе, чтобы создать новый, более крупный кластер. Этот процесс повторяется до тех пор, пока не образуются K-кластеры.

Чтобы найти похожие данные, нужно найти близость каждых данных, как это делает алгоритм K-NN.

Этот процесс можно визуализировать с помощью дендрограммы. Дендрограмма — это диаграмма, похожая на турнирную таблицу. Изображение ниже.

Данные ABCDEF собираются в одну группу. На каждом этапе похожие данные составляют группу.

2. Разделительный

Разделительный метод является методом, противоположным агломеративному методу. Изначально все данные рассматриваются как один кластер. Затем кластер разделяется по алгоритму. Следовательно, метод разделения также можно визуализировать с помощью дендрограммы.

Теперь вы понимаете два типа техники иерархической кластеризации. Но ждать!

Как мы можем вычислить близость между данными?

Вычисление сходства имеет решающее значение для точности метода иерархической кластеризации. Существует несколько подходов к поиску близости кластеров.

・Min — минимальное расстояние между кластерами.

・Max — максимальное расстояние между кластерами.

・Среднее значение по группе — поиск средних точек данных каждого кластера и их использование для определения близости.

・Расстояние между центроидами — вычисление центроидов каждого кластера. Близость их рассматривается как близость их центроидов.

・Метод Уорда — извините. Не уверен сейчас. Пожалуйста, проверьте себя.