В этой статье мы обсудим другой тип кластеризации (иерархическая кластеризация). В предыдущей статье мы говорили о K означает кластер.

Ключевое слово Забрать из этого блога

  • Что такое иерархическая кластеризация?
  • Приложения иерархической кластеризации
  • Различные типы иерархической кластеризации
  • Процесс агломеративной кластеризации
  • Дендрограмма
  • Функциональность Дендрограммы
  • Назначение Дендрограммы
  • Методы связывания и виды методов связывания

Что такое иерархическая кластеризация?

  • Иерархическая кластеризация, также известная как иерархический кластерный анализ или HCA, представляет собой еще один неконтролируемое машинное обучение для группировки немаркированных наборов данных в кластеры.
  • Иерархическая кластеризация разработана в виде техники tree.
  • Основная идея иерархической кластеризации заключается в итеративном группировании наиболее похожих точек данных до тех пор, пока все точки данных не будут объединены в одну группу.
  • Это делается путем построения иерархической древовидной структуры, называемой дендрограммой.

Приложения иерархической кластеризации

Иерархическая кластеризация имеет широкий спектр приложений в различных областях, в том числе:

  • Финансы
  • Выявление фейковых новостей
  • Анализ документов
  • Обработка изображений и сигналов
  • Биология и генетика

В целом, иерархическая кластеризация — это универсальный метод кластеризации, который можно применять к широкому кругу наборов данных в различных областях. Это особенно полезно при исследовательском анализе данных и определении естественной структуры или группировок в наборе данных.

Типы иерархической кластеризации

Существует два основных типа иерархической кластеризации:

  • Агломеративный
  • Разделительный

Оба типа иерархической кластеризации могут использовать разные методы связи для измерения расстояния между кластерами. Сначала мы углубимся в агломеративную кластеризацию и разделительную кластеризацию, а затем обсудим различные методы связывания.

Агломерационная кластеризация

  • Агломеративная кластеризация с каждой точкой данных в качестве собственного кластера, а затем рекурсивное объединение наиболее похожих пар кластеров до тех пор, пока все данные не будут принадлежать одному кластеру.
  • Он также известен как восходящий подход к кластеризации.

Разделительная кластеризация

  • Разделительная кластеризация начинается со всех точек данных в одном кластере, а затем рекурсивно разбивается на более мелкие подкластеры, пока каждая точка данных не окажется в своем собственном кластере.
  • Он также известен как подход сверху вниз.

Процесс агломеративной кластеризации

Следующие шаги описывают общий процесс агломеративной кластеризации:

  1. Вычислите попарные расстояния между всеми точками данных.
  2. Представляйте каждую точку данных как собственный кластер.
  3. Вычислите расстояние между парами кластеров, используя критерий связи, такой как одиночная связь, полная связь, средняя связь или WARD.
  4. Объедините два ближайшихкластера в новый более крупный кластер.
  5. Обновите матрицу расстояний, вычислив расстояние между новым кластером и оставшимися кластерами.
  6. Повторяйте шаги 4–5, пока не будет выполнен критерий остановки.

На каждом шаге два наиболее похожих кластера объединяются в новый больший кластер, уменьшая общее количество кластеров. Процесс объединения кластеров продолжается до тех пор, пока все точки данных не будут принадлежать одному кластеру, формируя дендрограмму, показывающую иерархию кластеров и порядок их объединения.

ой!! Я знаю, что теперь вы будете думать, что такое дендрограмма, в основном, почему вы говорите дендрограмма дендрограмма. Хорошо.. не беспокойтесь, я расскажу, что такое дендрограмма, зачем она нам нужна…

Что такое дендрограмма?

  • Дендрограмма — это древовидная диаграмма, отображающая иерархические отношения между кластерами в наборе данных.
  • При иерархической кластеризации дендрограмма часто используется для визуализации результатов кластеризации и определения естественных кластеров в данных.

Функциональность дендрограммы

  • Листовой узел
  • Неконечный узел
  • Высота без листа
  • Заказ

Конечный узел. Каждый конечный узел представляет собой одну точку данных.

Неконечный узел. Каждый неконечный узел представляет собой кластер точек данных.

Неконечная высота. Высота каждого неконечного узла соответствует расстоянию между объединяемыми кластерами.

Порядок. Порядок, в котором объединяются кластеры, показан схемой ветвления дерева.

Основные цели дендрограммы

  • Основная цель дендрограммы в агломеративной кластеризации — визуализировать иерархические отношения между кластерами и помочь определить естественные группы или структуру данных.
  • Он обеспечивает визуальное представление процесса слияния и позволяет определить оптимальное количество кластеров путем изучения схемы ветвления дерева.
  • В целом, дендрограмма — это инструмент, который помогает в исследовательском анализе данных и дает представление о кластерной структуре данных.

Методы связи

  • Методы связывания используются в иерархической кластеризации для измерения расстояния или сходства между кластерами точек данных.
  • Основная цель методов связывания — определить, какие два кластера должны быть объединены следующими на основе их расстояния или сходства.

Типы методов связи

Существует четыре типа методов связывания, которые в основном используются в иерархической кластеризации, как показано ниже.

  • простая связь
  • Полная связь
  • Средняя связь
  • Связь WARD
  1. Одиночная связь: измеряет расстояние между двумя ближайшими точками данных в каждом кластере.
  2. Полная связь: измеряет расстояние между двумя самыми дальними точками данных в каждом кластере.
  3. Средняя связь: измеряет среднее расстояние между всеми парами точек данных в каждом кластере.
  4. Связывание кварталов: сводит к минимуму дисперсию объединяемых кластеров.

Преимущества иерархической кластеризации

У иерархической кластеризации есть несколько преимуществ:

  1. Иерархическая кластеризация обеспечивает четкое визуальное представление структуры кластеризации за счет использования дендрограмм, которые могут быть легко интерпретированы исследователями.
  2. В этой иерархической кластеризации не требуется предварительное знание количества кластеров, что делает ее полезной при исследовательском анализе данных.
  3. Его можно применять к данным любого типа, включая числовые, категориальные и двоичные данные.
  4. Иерархическая кластеризация относительно устойчива к выбросам, поскольку они, как правило, группируются вместе в своей собственной ветви дендрограммы.

Недостатки иерархической кластеризации

  1. Хотя дендрограммы могут помочь определить количество кластеров, может быть сложно определить оптимальное количество кластеров в большой и сложной дендрограмме.
  2. Иерархическая кластеризация не масштабируется, а это означает, что она может быть непригодна для очень больших наборов данных.
  3. Иерархическая кластеризация может потребовать значительных вычислительных ресурсов, особенно для больших наборов данных, поскольку требует расчета расстояний или сходства между всеми парами точек данных.

В этой статье мы обсудили иерархическую кластеризацию и то, как она работает в агломеративной кластеризации. В следующей статье мы обсудим другие важные методы кластеризации (кластеризация DBSCAN).

Приятного обучения 😃😃😃