Кластеризация считается наиболее важным методом обучения без учителя. В этом блоге мы попытаемся понять некоторые основы кластеризации в машинном обучении.

Прежде чем мы начнем о кластеризации, давайте сначала разберемся, что такое кластер.

Кластер - это набор объектов данных, которые похожи друг на друга в одной группе (классе или категории) и отличаются от объектов в других кластерах.

Кластеризация - это метод обучения без учителя, в котором есть предопределенные классы и предварительная информация, которая определяет, как данные должны быть сгруппированы или помечены в отдельные классы.

Его также можно рассматривать как процесс исследовательского анализа данных (EDA), который помогает нам обнаруживать скрытые паттерны интереса или структуру в данных.

Кластеризация также может работать как автономный инструмент для получения информации о распределении данных или как этап предварительной обработки в других алгоритмах.

Почему именно кластеризация?

Кластеризация позволяет нам находить скрытые отношения между точками данных в наборе данных.

Примеры:

1. В маркетинге клиенты сегментируются по сходству для проведения целевого маркетинга.

2. Имея набор текстов, нам нужно организовать их в соответствии с сходством контента, чтобы создать иерархию тем.

3. Обнаружение различных типов узоров в данных изображения (обработка изображений). Он эффективен в биологических исследованиях для выявления основных закономерностей.

И есть много примеров, которые делают кластеризацию столь важной.

Классификация против кластеризации

Давайте разберемся, чем классификация в обучении с учителем отличается от кластеризации в обучении без учителя.

Классификация

В контролируемом обучении наша модель изучает метод прогнозирования класса экземпляра на основе предварительно помеченных (классифицированных) экземпляров.

Кластеризация

При обучении без учителя наша модель пытается найти «естественную» группировку экземпляров для заданных немаркированных данных.

Как определить хорошие алгоритмы кластеризации?

Кластеры высокого качества могут быть созданы путем уменьшения расстояния между объектами в одном кластере, известного как минимизация внутри кластера, и увеличения расстояния с объектами в другом кластере, известного как максимизация между кластерами.

Минимизация внутри кластера. Чем ближе объекты в кластере, тем больше вероятность, что они принадлежат к одному кластеру.

Максимизация между кластерами. Это позволяет разделить два кластера. Основная цель - максимально увеличить расстояние между двумя кластерами.

Существует множество алгоритмов кластеризации, и все они используют разные методы кластеризации. Их можно разделить на две категории:

1. Плоские алгоритмы или алгоритмы разбиения

2. Иерархические алгоритмы

Плоский алгоритм или алгоритм разделения:

Этот алгоритм пытается разделить интересующий набор данных на заранее определенное количество групп / кластеров.

Все группы / кластеры независимы друг от друга. Например: K-означает

Алгоритм иерархической кластеризации

Иерархическая кластеризация не разделяет набор данных на кластеры за один шаг. Вместо этого он включает в себя несколько шагов, которые выполняются от одного кластера, содержащего все точки данных, до n кластеров, содержащих одну точку данных.

Этот алгоритм далее подразделяется на методы разделения и агломерации.

Иерархическую кластеризацию можно показать с помощью дендрограммы (ниже).

Метод разделения

Этот метод также известен как метод кластеризации сверху вниз. Он назначает все точки данных одному кластеру, а затем разбивает кластер на два наименее похожих кластера. Затем тот же метод рекурсивно применяется к обоим кластерам, пока мы не получим кластер каждой точки данных.

Агломерационный метод

Он также известен как метод кластеризации снизу вверх. Здесь он назначает n точек данных n кластерам и объединяет наиболее похожие кластеры, вычисляя сходство, то есть расстояние между каждым из кластеров. Этот процесс продолжается до тех пор, пока мы не получим один кластер.

Итак, это было краткое введение в кластеризацию. Надеюсь, теперь у вас есть основное представление о кластеризации и о том, почему она используется.

Спасибо за прочтение.