Кластеризация K-средних — один из самых простых и популярных алгоритмов машинного обучения без учителя.

Как правило, неконтролируемые алгоритмы делают выводы из наборов данных, используя только входные векторы, не обращаясь к известным или помеченным результатам.

Кластер — это совокупность точек данных, объединенных вместе из-за определенного сходства.

Вы определите целевое число k, которое относится к количеству центроидов, которые вам нужны в наборе данных. Центроид — это воображаемое или реальное местоположение, представляющее центр кластера. Каждая точка данных присваивается каждому из кластеров путем уменьшения суммы квадратов в кластере.

Другими словами, алгоритм K-средних идентифицирует k число центроидов, а затем распределяет каждую точку данных по ближайшему кластеру, сохраняя при этом центроиды как можно меньшими.

Средние значения в K-средних относятся к усреднению данных; то есть нахождение центроида.

Как работает алгоритм К-средних:

Для обработки обучающих данных алгоритм K-средних при интеллектуальном анализе данных начинает с первой группы случайно выбранных центроидов, которые используются в качестве начальных точек для каждого кластера, а затем выполняет итерационные (повторяющиеся) вычисления для оптимизации положения центроидов.

Он останавливает создание и оптимизацию кластеров, когда:

  • Центроиды стабилизировались — их значения не изменились, потому что кластеризация прошла успешно.
  • Достигнуто заданное количество итераций.

В качестве входных данных алгоритм использует немаркированный набор данных, разбивает полный набор данных на k кластеров и повторяет процесс, чтобы найти правильные кластеры, и значение k должно быть заранее определено.

Специально выполняя две задачи, алгоритм k-средних

  • Вычисляет правильное значение K-центральных точек или центроидов итеративным методом.
  • Назначает каждую точку данных ее ближайшему k-центру, а точки данных, расположенные ближе к определенному k-центру, образуют кластер. Следовательно, точки данных в каждом кластере имеют некоторое сходство и сильно отличаются от других кластеров.

ОСОБЕННОСТИ кластеризации K-средних-

  1. Он очень гладкий с точки зрения интерпретации и разрешения.
  2. Для большого количества переменных, присутствующих в наборе данных, K-средние работают быстрее, чем иерархическая кластеризация.
  3. При переопределении центра кластера экземпляр может изменить кластер.
  4. K-means реформирует компактные кластеры.
  5. Он может работать с немаркированными числовыми данными.
  6. Более того, это быстро, надежно и несложно для понимания и дает наилучшие результаты, когда наборы данных хорошо различимы (полностью отделены) друг от друга.

Применения кластеризации K-средних

  1. Кластеризация K-средних применяется в анализе записей о вызовах (CDR). Это дает подробное представление о требованиях и удовлетворенности клиентов на основе трафика вызовов в течение дня и демографических данных в конкретном месте.
  2. Он используется при кластеризации документов для идентификации совместимых документов в одном месте.
  3. Он применяется для классификации звуков на основе их идентичных паттернов и выделения в них пороков развития.
  4. Он служит моделью метода сжатия изображений с потерями, при ограничении изображений K-средние объединяют пиксели изображения в кластеры, чтобы уменьшить его общий размер.
  5. Это полезно в бизнес-секторе для распознавания частей покупок, сделанных клиентами, а также для кластеризации движений в приложениях и на веб-сайтах.
  6. В области страхования и обнаружения мошенничества на основе априорных данных вполне вероятно объединение мошеннических потребителей в кластеры для запроса на основе их близости к кластерам, как показывают модели.

АНАЛИЗ ДАННЫХ ЗАПИСЕЙ О ЗВОНКАХ: реальный пример использования K-means Clustering.

Подробная запись о звонках (CDR) — это информация, собираемая телекоммуникационными компаниями во время звонков, SMS и интернет-активностей клиента. Эта информация дает более полное представление о потребностях клиента при использовании с демографическими данными клиентов. Большинство телекоммуникационных компаний используют информацию CDR для обнаружения мошенничества, группируя профили пользователей, снижая отток клиентов за счет активности использования и ориентируясь на прибыльных клиентов с помощью анализа RFM.

В этом блоге мы обсудим кластеризацию действий клиентов за 24 часа с использованием неконтролируемого алгоритма кластеризации K-средних. Он используется для понимания сегмента клиентов в отношении их использования по часам.

Например, сегмент клиентов с высокой активностью может приносить больший доход. Сегмент клиентов с высокой активностью в ночное время может быть фродовым.

В качестве источника данных используется файл ежедневной активности из Dandelion API, где файл содержит записи CDR, созданные сотовой сетью Telecom Italia над городом Милан. Ежедневный файл активности CDR содержит информацию для 10 000 сеток о входящих и исходящих SMS, входящих и исходящих звонках и активности в Интернете.