Алгоритм неконтролируемого машинного обучения
Кластеризация K-средних — это алгоритм машинного обучения без присмотра, который группирует немаркированный набор данных в разные кластеры. Здесь K определяет количество предопределенных кластеров, которые необходимо создать в процессе, например, если K=2, будет два кластера, а при K=3 будет три кластера и так далее.
Алгоритм принимает немаркированный набор данных в качестве входных данных, делит набор данных на k кластеров и повторяет процесс до тех пор, пока не найдет лучшие кластеры. В этом алгоритме значение k должно быть задано заранее.
Это итеративный алгоритм, который делит немаркированный набор данных на k разных кластеров таким образом, что каждый набор данных принадлежит только одной группе со схожими свойствами.
Это позволяет нам группировать данные в разные группы и является удобным способом самостоятельного обнаружения категорий групп в немаркированном наборе данных без необходимости какого-либо обучения.
Это алгоритм на основе центроида, в котором каждый кластер связан с центроидом. Основная цель этого алгоритма — минимизировать сумму расстояний между точкой данных и их соответствующими кластерами.
Алгоритм кластеризации k-средних в основном выполняет две задачи:
- Определяет лучшее значение для K центральных точек или центроидов с помощью итеративного процесса.
- Назначает каждую точку данных ближайшему k-центру. Те точки данных, которые находятся рядом с конкретным k-центром, создают кластер.
Как работает алгоритм К-средних?
Работа алгоритма K-Means объясняется в следующих шагах:
- Шаг 1: Выберите число K, чтобы определить количество кластеров.
- Шаг 2: Выберите случайные K точек или центроидов. (Может быть и другим из входного набора данных).
- Шаг 3: Назначьте каждую точку данных ближайшему центроиду, который сформирует предопределенные кластеры K.
- Шаг 4: Рассчитайте дисперсию и поместите новый центр тяжести каждого кластера.
- Шаг 5: повторите третьи шаги, что означает переназначение каждой точки данных новому ближайшему центроиду каждого кластера.
- Шаг 6: Если происходит какое-либо переназначение, перейдите к шагу 4, в противном случае перейдите к ГОТОВО.
- Шаг-7: Модель готова.
Преимущества k-средних
- Относительно прост в реализации.
- Масштабируется до больших наборов данных.
- Гарантирует сходимость.
- Может разогревать позиции центроидов.
- Легко адаптируется к новым примерам.
- Обобщает кластеры различных форм и размеров, например эллиптические кластеры.
Недостаток кластеризации k-средних
- Алгоритмы кластеризации K-средних, чувствительные к выбросам или зашумленным данным.
- Выбор начальных центроидов случайный.
- Предельный случай исправления данных.
- Сложно сравнивать с разным количеством кластеров.
- Не подходит для обнаружения кластера невыпуклой формы.