Метод K-средних в кластеризации

Почему кластеризация ??

Обычно в обучении с учителем, таком как линейная регрессия или логистическая регрессия, у нас есть набор независимых переменных и зависимая или набор зависимых переменных. Но при обучении без учителя у нас может быть только набор независимых переменных и никаких зависимых переменных. Таким образом, чтобы понять набор данных, нам может потребоваться сгруппировать их в разные кластеры или группы.

Что такое кластеризация K-средних??

Обычно для определения количества кластеров мы используем множество методов кластеризации. Один из них алгоритм K-Means Clustering. Концепция метода кластеризации K-средних заключается в том, что мы обычно вычисляем сумму квадратов расстояний от каждой точки до центров кластеров. Важный момент, на который нам нужно обратить внимание, это, скажем, то, что у нас есть 100 точек данных для построения. Теперь мы можем выбрать любое количество кластеров от 1 до 100. Это тоже возможно. Но проблема в том, что если мы выберем меньшее количество кластеров, то сумма квадратов расстояний от каждой точки до центра кластера будет больше, что не является оптимальным решением для определения количества кластеров. С другой стороны, если мы выберем больше кластеров, то сумма квадратов расстояний от каждой точки до центра кластеров будет очень меньше. Это также не оптимальное решение для данного сценария. Итак, нам нужно найти такие кластеры, чтобы сумма квадратов расстояний была не меньше и не больше. Именно здесь мы используем методы кластеризации, такие как K-средние, на основе центроида, DBSCAN, на основе плотности и т. Д. Одним из популярных методов кластеризации, который широко используется, является алгоритм кластеризации K-средних.

Как найти количество оптимальных кластеров?

В процессе поиска оптимального количества кластеров в методе кластеризации K-средних мы обычно используем концепцию метода локтя. В этом методе локтя мы обычно строим график для 10–15 кластеров, проверяем инерцию для каждого кластера, а затем вручную выбираем оптимальное количество кластеров, глядя на график. Инерционная не должна быть больше или меньше. В основном он должен быть посередине, иначе это можно определить, посмотрев на график. Больше, чем инерция, нам нужно смотреть на количество кластеров.

Что такое инерция??

Инерция означает сумму квадратов расстояния от каждого кластера до центра кластера.

Как выглядит график и как выбрать количество кластеров?

from sklearn.cluster import KMeans
inertia_list = [] 
for i in range(1, 11): 
    kmeans = KMeans(n_clusters = i, init = 'random', random_state = 42)
    kmeans.fit(df) 
    inertia_list.append(kmeans.inertia_)

plt.plot(range(1,11),inertia_list)
plt.title('Inertia_list vs no. of clusters')
plt.xlabel('Number of clusters')
plt.ylabel('inertia_list')
plt.show()

Здесь мы построили график с количеством кластеров по оси X и инерцией по оси Y. Таким образом, по мере увеличения количества кластеров инерция будет уменьшаться. Если количество кластеров равно количеству точек, то инерция будет равна нулю.

Таким образом, глядя на график, мы можем понять, что линия представляет собой кривую с числом кластеров от 2 до 4. Следовательно, наиболее подходящим оптимальным числом кластеров будет 3. Здесь диапазон только от 2 до 4, но если диапазон большой, мы можем выбрать любое количество кластеров между этим диапазоном. Таким образом, количество кластеров для данного набора данных будет равно трем, и это будет оптимальное количество кластеров.

Спасибо, что прочитали эту статью. Я надеюсь, что это чтение было полезным для вас. Пожалуйста, поставьте лайк этому блогу, чтобы он помог мне написать больше статей.

Желаю тебе хорошего дня..!!

Метод K-средних в кластеризации

Вопросы по теме