Алгоритм неконтролируемого машинного обучения

Кластеризация K-средних — это алгоритм машинного обучения без присмотра, который группирует немаркированный набор данных в разные кластеры. Здесь K определяет количество предопределенных кластеров, которые необходимо создать в процессе, например, если K=2, будет два кластера, а при K=3 будет три кластера и так далее.

Алгоритм принимает немаркированный набор данных в качестве входных данных, делит набор данных на k кластеров и повторяет процесс до тех пор, пока не найдет лучшие кластеры. В этом алгоритме значение k должно быть задано заранее.

Это итеративный алгоритм, который делит немаркированный набор данных на k разных кластеров таким образом, что каждый набор данных принадлежит только одной группе со схожими свойствами.

Это позволяет нам группировать данные в разные группы и является удобным способом самостоятельного обнаружения категорий групп в немаркированном наборе данных без необходимости какого-либо обучения.

Это алгоритм на основе центроида, в котором каждый кластер связан с центроидом. Основная цель этого алгоритма — минимизировать сумму расстояний между точкой данных и их соответствующими кластерами.

Алгоритм кластеризации k-средних в основном выполняет две задачи:

  • Определяет лучшее значение для K центральных точек или центроидов с помощью итеративного процесса.
  • Назначает каждую точку данных ближайшему k-центру. Те точки данных, которые находятся рядом с конкретным k-центром, создают кластер.

Как работает алгоритм К-средних?

Работа алгоритма K-Means объясняется в следующих шагах:

- Шаг 1: Выберите число K, чтобы определить количество кластеров.

- Шаг 2: Выберите случайные K точек или центроидов. (Может быть и другим из входного набора данных).

- Шаг 3: Назначьте каждую точку данных ближайшему центроиду, который сформирует предопределенные кластеры K.

- Шаг 4: Рассчитайте дисперсию и поместите новый центр тяжести каждого кластера.

- Шаг 5: повторите третьи шаги, что означает переназначение каждой точки данных новому ближайшему центроиду каждого кластера.

- Шаг 6: Если происходит какое-либо переназначение, перейдите к шагу 4, в противном случае перейдите к ГОТОВО.

- Шаг-7: Модель готова.

Преимущества k-средних

- Относительно прост в реализации.

- Масштабируется до больших наборов данных.

- Гарантирует сходимость.

- Может разогревать позиции центроидов.

- Легко адаптируется к новым примерам.

- Обобщает кластеры различных форм и размеров, например эллиптические кластеры.

Недостаток кластеризации k-средних

- Алгоритмы кластеризации K-средних, чувствительные к выбросам или зашумленным данным.

- Выбор начальных центроидов случайный.

- Предельный случай исправления данных.

- Сложно сравнивать с разным количеством кластеров.

- Не подходит для обнаружения кластера невыпуклой формы.