Что такое кластеризация?
Кластерный анализ или кластеризация — это задача группировки набора объектов таким образом, чтобы объекты в одной группе были более похожи друг на друга, чем на объекты в других группах (кластерах).

Основная задача — исследовательский анализ данных (EDA) и статистический анализ данных.

Приложение

  • Распознавание образов
  • Анализ изображения
  • Поиск информации
  • Биологическая информация
  • Сжатие данных
  • Компьютерная графика
  • Машинное обучение

Сама по себе кластеризация — это не один конкретный алгоритм, это обобщенное название или задача, которую необходимо выполнить над данными.

Несколько популярных понятий кластеров включают группы
1. с небольшим расстоянием между членами группы
2. плотные области пространства данных со схожим поведением
3. интервалы или определенные статистические распределения

Кластеризация также формулируется как «Многоцелевая задача оптимизации».

Кластеризация может быть достигнута путем выбора

  • Соответствующий алгоритм
  • Настройка параметров - функция расстояния, порог плотности, зависящий от заданного набора данных.

Кластеризация — это итеративный процесс. Часто бывает необходимо модифицировать предварительную обработку данных и параметры модели до тех пор, пока результат не достигнет желаемых свойств. Чтобы понять кластеризацию, нам нужно понять различия между различными алгоритмами.

Несколько алгоритмов кластеризации:

  • Кластеризация k-средних
  • Иерархическая кластеризация
  • Нечеткие C-средства
  • Среднее смещение
  • DBSCAN (пространственная кластеризация приложений с шумом на основе плотности)
  • Гауссовские смешанные модели