Что такое кластеризация

Кластеризация является одним из наиболее распространенных методов исследовательского анализа данных, используемых для получения интуитивного представления о структуре данных. Его можно определить как задачу идентификации подгрупп в данных таким образом, чтобы точки данных в одной и той же подгруппе (кластере) были очень похожи, а точки данных в разных кластерах сильно различались.

В отличие от обучения с учителем, кластеризация считается методом обучения без учителя, поскольку у нас нет оснований для сравнения результатов алгоритма кластеризации с истинными метками для оценки его производительности. Мы только хотим попытаться исследовать структуру данных, сгруппировав точки данных в отдельные подгруппы.

Кластеризация K-средних:

Существует множество алгоритмов кластеризации, каждый из которых имеет свои преимущества и недостатки. Популярным алгоритмом кластеризации является K-средних, целью которого является итеративное определение лучших k центров кластеров. Центры кластера служат «представителями» объектов, связанных с кластером.

Кластеризация K-средних — это алгоритм обучения без учителя. Для этой кластеризации нет размеченных данных, в отличие от обучения с учителем. K-Means выполняет разделение объектов на кластеры, которые имеют сходство и не похожи на объекты, принадлежащие другому кластеру.

Термин «К» — это число. Вам нужно сообщить системе, сколько кластеров вам нужно создать. Например, K = 2 относится к двум кластерам. Существует способ выяснить, какое значение K является лучшим или оптимальным для заданных данных.

Ключевые особенности k-mean также являются его недостатками:

  • Количество кластеров (k) должно быть указано явно. В некоторых случаях количество различных групп неизвестно.
  • Итеративный характер k-средних может привести к неверному результату из-за сходимости к локальному минимуму.
  • Кластеры предполагаются сферическими.

Кластеризация K-средних в ДОМЕНЕ БЕЗОПАСНОСТИ:

1. Выявление мест совершения преступлений

Имея данные о преступлениях в определенных районах города, категория преступления, район совершения преступления и связь между ними могут дать качественное представление о районах, подверженных преступности, в городе или населенном пункте.

2. Выявление страхового мошенничества

Машинное обучение играет решающую роль в обнаружении мошенничества и имеет многочисленные приложения для обнаружения мошенничества в автомобилестроении, здравоохранении и страховании. используя прошлые исторические данные о мошеннических заявках, можно выделить новые претензии на основе их близости к кластерам, которые указывают на мошеннические схемы. Поскольку страховое мошенничество потенциально может иметь многомиллионные последствия для компании, способность обнаруживать мошенничество имеет решающее значение.

3. Киберпрофилирование преступников

Киберпрофилирование — это процесс сбора данных от отдельных лиц и групп для выявления существенных взаимосвязей. Идея киберпрофилирования основана на профилях преступников, которые предоставляют информацию о следственном отделе для классификации типов преступников, которые находились на месте преступления.

4. Подробный анализ записи звонков

Детальная запись вызова (cdr) — это информация, полученная телекоммуникационными компаниями во время звонка, смс и интернет-активности клиента. Эта информация дает более полное представление о потребностях клиента при использовании с демографическими данными клиентов. Мы можем кластеризовать действия клиентов в течение 24 часов, используя неконтролируемый алгоритм кластеризации k-средних. Он используется для понимания сегментов клиентов в отношении их использования по часам.

5. Автоматическая кластеризация ит-оповещения

Компоненты ИТ-инфраструктуры крупного предприятия, такие как сеть, хранилище или база данных, генерируют большие объемы предупреждающих сообщений. Поскольку предупреждающие сообщения потенциально указывают на операционные проблемы, их необходимо проверять вручную для установления приоритетов для последующих процессов. Кластеризация данных может дать представление о категориях предупреждений и среднем времени ремонта, а также помочь в прогнозировании сбоев.

Выбор правильного количества кластеров

Количество кластеров, которые мы выбираем для алгоритма, не должно быть случайным. Каждый и каждый кластер формируется путем вычисления и сравнения средних расстояний каждой точки данных в кластере от его центра масс.

Мы можем выбрать правильное количество кластеров с помощью метода внутрикластерной суммы квадратов (WCSS).

WCSS Обозначает сумму квадратов расстояний точек данных в каждом кластере от его центра тяжести.

Основная идея состоит в том, чтобы минимизировать расстояние между точками данных и центроидом кластеров. Процесс повторяется до тех пор, пока мы не достигнем минимального значения суммы расстояний.

Интерфейс ввода/вывода для алгоритма K-средних

Для обучения алгоритм k-средних ожидает, что данные будут предоставлены в канале обучения (рекомендуется S3DataDistributionType=ShardedByS3Key) с дополнительным тестовым каналом (рекомендуется S3DataDistributionType=FullyReplicated) для оценки данных. Для обучения поддерживаются форматы recordIO-wrapped-protobuf и CSV. Вы можете использовать файловый режим или конвейерный режим для обучения моделей на данных, отформатированных как recordIO-wrapped-protobuf или как CSV.

Для вывода поддерживаются text/csv, application/json и application/x-recordio-protobuf. k-means возвращает метку Nearest_Cluster и Distance_to_Cluster для каждого наблюдения.

Дополнительные сведения о форматах входных и выходных файлов см. в разделе Форматы ответов K-средних для логического вывода и в Образцах тетрадей K-средних. Алгоритм k-средних не поддерживает обучение с несколькими экземплярами, в котором обучающий набор состоит из помеченных мешков, каждый из которых представляет собой набор немаркированных экземпляров.

Спасибо за чтение этой статьи.