Введение

Алгоритм K-средних очень популярен и используется в различных приложениях, таких как сегментация рынка, кластеризация документов, сегментация изображений, сжатие изображений и т. д. Обычно цель кластерного анализа заключается в следующем:

  1. Получите осмысленное интуитивное представление о структуре данных, с которыми мы имеем дело.
  2. Сгруппируйте, а затем предскажите, где будут построены разные модели для разных подгрупп, если мы считаем, что поведение разных подгрупп сильно различается. Примером этого является объединение пациентов в разные подгруппы и построение модели для каждой подгруппы для прогнозирования вероятности риска сердечного приступа.

Кластеризация

  • Кластеризация – это тип обучения без учителя, при котором точки данных группируются в разные наборы в зависимости от степени их сходства.
  • Кластеризация используется для поиска однородных подгрупп в данных таким образом, чтобы точки данных в каждом кластере были максимально похожи в соответствии с мерой подобия, такой как евклидово расстояние или расстояние на основе корреляции.

Что такое K-среднее?

Кластеризация K-средних – это алгоритм обучения без учителя, который группирует немаркированный набор данных в разные кластеры. Здесь K определяет количество предопределенных кластеров, которые необходимо создать в процессе, например, если K=2, будет два кластера, а при K=3 будет три кластера и т. д.

Ниже приведены основные выводы:

  • Масштабируйте/стандартизируйте данные при применении алгоритма К-средних.
  • Метод локтя при выборе количества кластеров обычно не работает, поскольку функция ошибок монотонно убывает для всех k
  • K-средние придают больший вес более крупным кластерам.
  • Kmeans предполагает сферическую форму кластеров (с радиусом, равным расстоянию между центроидом и самой дальней точкой данных) и не работает, когда кластеры имеют разные формы, например эллиптические кластеры.
  • Если между кластерами есть перекрытие, метод k-средних не имеет встроенной меры неопределенности для примеров, принадлежащих перекрывающейся области, чтобы определить, для какого кластера назначить каждую точку данных.
  • Kmeans по-прежнему может кластеризовать данные, даже если они не могут быть кластеризованы, например данные, поступающие из однородных распределений.

Как работает кластеризация K-средних?

Алгоритм кластеризации k-средних пытается разбить данный анонимный набор данных (набор, не содержащий информации об идентичности класса) на фиксированное число (k) кластеров.

Изначально выбирается k так называемых центроидов. Центроид — это точка данных (воображаемая или реальная) в центре кластера. В Praat каждый центроид представляет собой существующую точку данных в заданном наборе входных данных, выбранную случайным образом, так что все центроиды уникальны (то есть для всех центроидов ci и cj ci ≠ cj). Эти центроиды используются для обучения классификатора kNN. Полученный классификатор используется для классификации (с использованием k = 1) данных и, таким образом, для создания начального рандомизированного набора кластеров. После этого каждый центроид устанавливается равным среднему арифметическому кластера, который он определяет. Процесс классификации и корректировки центроидов повторяется до тех пор, пока значения центроидов не стабилизируются. Окончательные центроиды будут использоваться для окончательной классификации/кластеризации входных данных, эффективно превращая набор изначально анонимных точек данных в набор точек данных, каждая из которых имеет идентификатор класса.

Недостатки

Алгоритм Kmeans хорошо фиксирует структуру данных, если кластеры имеют сферическую форму. Он всегда пытается построить красивую сферическую форму вокруг центроида. Это означает, что в тот момент, когда кластеры имеют сложную геометрическую форму, k-средние плохо справляются с кластеризацией данных. Мы проиллюстрируем три случая, когда метод k-средних работает плохо.

Во-первых, алгоритм k-средних не позволяет точкам данных, которые находятся далеко друг от друга, совместно использовать один и тот же кластер, даже если они явно принадлежат к одному кластеру.

Кластеризация K-средних в ДОМЕНЕ БЕЗОПАСНОСТИ:

1. Выявление мест совершения преступлений

Наличие данных о преступлениях в определенных районах города, категория преступления, район совершения преступления и взаимосвязь между ними могут дать качественное представление о районах, подверженных преступности, в городе или населенном пункте.

2. Обнаружение страхового мошенничества

Машинное обучение играет решающую роль в обнаружении мошенничества и имеет многочисленные приложения для обнаружения мошенничества в автомобилестроении, здравоохранении и страховании. используя прошлые исторические данные о мошеннических заявках, можно изолировать новые заявки на основе их близости к кластерам, которые указывают на мошеннические схемы. Поскольку мошенничество со страховкой потенциально может иметь многомиллионные последствия для компании, способность обнаруживать мошенничество имеет решающее значение.

3. Киберпрофилирование преступников

Киберпрофилирование – это процесс сбора данных от отдельных лиц и групп для выявления существенных корреляций. Идея киберпрофилирования основана на криминальных профилях, которые предоставляют информацию о следственном отделе для классификации типов преступников, которые находились на месте преступления.

4. Подробный анализ записи звонков

Подробная запись о звонке (cdr) – это информация, собираемая телекоммуникационными компаниями во время звонка, SMS и активности клиента в Интернете. Эта информация дает более полное представление о потребностях клиента при использовании с демографическими данными клиентов. Мы можем кластеризовать действия клиентов в течение 24 часов, используя неконтролируемый алгоритм кластеризации k-средних. Он используется для анализа сегментов клиентов с точки зрения их использования в часах.

5. Автоматическая группировка оповещений

Компоненты технологий инфраструктуры крупного предприятия, такие как сеть, хранилище или база данных, генерируют большие объемы предупреждающих сообщений. Поскольку предупреждающие сообщения потенциально указывают на операционные проблемы, их необходимо проверять вручную для установления приоритетов для последующих процессов. Кластеризация данных позволяет получить представление о категориях оповещений и среднем времени восстановления, а также помочь в прогнозировании сбоев.

Заключение

Цель k-средних – сгруппировать точки данных в отдельные непересекающиеся подгруппы. Очень хорошо получается, когда кластеры имеют сферическую форму. Однако он страдает, поскольку геометрические формы кластеров отклоняются от сферических форм. Более того, он также не узнает количество кластеров из данных и требует, чтобы оно было предварительно определено. Чтобы быть хорошим практиком, полезно знать предположения, лежащие в основе алгоритмов/методов, чтобы иметь довольно хорошее представление о сильных и слабых сторонах каждого метода.

Спасибо, что прочитали!!