Сегодня мы рассмотрим метод кластеризации. Кластеризация означает группу или толпу. Как показывает происхождение слова, методы кластеризации разбивают выборочные наборы данных на несколько групп. Но в чем отличие от алгоритма, который я представил, такого как регрессия или K-NN. Основное различие между кластеризацией и ими заключается в том, что кластеризация — это обучение без учителя. При обучении с учителем подготавливается ответ, совместимый с данными каждой выборки, чтобы мы могли рассчитать точность модели обучения. С другой стороны, неконтролируемое обучение не имеет данных ответов, совместимых с выборочными данными. Поэтому алгоритм пытается найти возможную группировку (кластеры) из выборочных наборов данных.

Неконтролируемое обучение

Есть несколько типов обучения без учителя, как и обучение с учителем. Основное неконтролируемое обучение приведено ниже.

Кластеризация K-средних — кластеризация выборочных данных в число (K). Параметр K имеет решающее значение для этого алгоритма. Это полностью отличается от метода K-NN!

Иерархическая кластеризация — кластеризация данных на родителей и детей. Результат выглядит как иерархическое дерево!

Вероятностная кластеризация — группировка данных в кластеры на основе вероятности.

Кластеризация K-средних

Во-первых, я собираюсь представить кластеризацию K-средних. Как указано выше, K-Means является одним из методов кластеризации.

Как работает кластеризация K-средних

Вначале все данные наносятся на плоскость x-y. Затем случайным образом выбираются K центроидов. Центроид относится к центроидам кластера. После того, как выбраны случайные центроиды, он выполняет итеративный (повторяющийся) расчет для оптимизации положения каждого центроида.

Вы можете представить поток в этом видео. (https://youtu.be/Coa5IbDfDSI)

Для определения наиболее эффективного параметра K

Метод локтя — использование показателя SSE для нахождения эффективного k-параметра. SSE представляет собой сумму квадратов ошибок. Если SSE показывает большое число, оценки модели имеют большую разницу между выборочными данными. Обратное также верно.

В методе локтя мы должны построить диаграмму числа SSE, а затем попытаться найти край линии. Точка перед ребром принимается за лучший k-параметр.

Анализ силуэта — использование коэффициента силуэта для поиска наилучшего параметра k. Коэффициент силуэта означает, насколько далеко каждый кластер расположен от каждого кластера. Коэффициент варьируется от -1 до 1. Ближе к 0 кластер близок к другим кластерам. Следовательно, -1 или 1 лучше для модели кластеризации. Наша цель!