Всем привет !

Вы когда-нибудь задумывались, как мы можем прочитать огромный набор файлов журнала без меток, чтобы что-то предсказать или проанализировать генетику, например, образцы ДНК для анализа эволюционной биологии, если ответ положительный, то вы находитесь в правильном месте!

Все эти примеры относятся к категории неконтролируемого обучения, т.е. вывод основных закономерностей из немаркированного заданного набора данных без какой-либо ссылки на помеченные результаты или прогнозы.Существует несколько методов или алгоритмов, которые мы можем использовать в неконтролируемом обучении. вот некоторые из примеров:
кластеризация, обнаружение аномалий, нейронные сети и подходы к изучению моделей скрытых переменных.

Здесь, в этой статье, мы обсудим краткое изложение наиболее широко используемой техники обучения без учителя, т. е. кластеризации, которая проста в использовании и применении и имеет различные преимущества, и вариант ее использования в области безопасности, так что же это за кластеризация, в основном она имеет то же значение. как следует из названия, группа определенного набора подобных вещей, хорошие новости! в машинном обучении это означает то же самое с некоторыми добавленными терминологиями, поэтому, вкратце, кластеризация относится к процессу автоматического группирования точек данных с похожими характеристиками и присвоения их «кластерам», а также использования математических концепций для получения правильного прогноза для вашей модели неконтролируемого машинного обучения.

Итак, давайте углубимся в самую старую и доступную технику кластеризации, которая называется Кластеризация K-средних.

Что такое кластеризация K-средних?

K-средства — это метод кластеризации, который группирует немаркированный набор данных в разные кластеры. В этом K определяет количество предварительно определенных кластеров, которые необходимо создать в процессе обучения без учителя, как если бы K = 3, будет три кластера. , а для K=4 будет четыре кластера и так далее.

В основном это алгоритм на основе центроида, где каждый кластер связан с центроидом. Основной подход этого метода заключается в минимизации этой суммы расстояния центроида между соответствующим кластером и точками данных.

Алгоритм берет немаркированный набор входных данных и делит входные данные на разные наборы кластеров. Количество кластеров предопределено в модели. Используя метод локтя, мы можем найти количество кластеров, которые будут подходить для нашей модели, и этот процесс продолжается. повторяя, пока мы не найдем лучший кластер для наших точек данных

K-Means помогает двумя основными способами:

  • Определяет наилучшее значение K с помощью итеративного метода поиска центроидов
  • Назначает каждую точку данных ее ближайшему k-центру и создает кластер для точек данных с похожими характеристиками.

Идея k-Means заключается в том, что мы хотим добавить k новых точек к имеющимся у нас данным. Каждая из этих точек, называемая центроидом, будет вращаться, пытаясь центрироваться в середине одного из k кластеров, которые у нас есть. Как только эти точки перестают двигаться, наш алгоритм кластеризации останавливается.

Итак, как K означает работу?

Вкратце, мы можем разделить работу по кластеризации K-средних на несколько этапов:

1) Укажите количество кластеров K.

  1. Инициализируйте, сначала перетасовав набор данных, а затем случайным образом выбрав K точек данных для центроидов без замен.
  2. Продолжайте повторять до тех пор, пока не будет изменений в центроидах. то есть назначение точек данных кластерам не меняется.

3. Вычислите сумму квадратов расстояний между точками данных и центроидами.

4. Назначение каждой точки данных ближайшему кластеру (найдены центроиды)

5. Вычислите центроиды для кластеров, взяв среднее значение точек данных, принадлежащих каждому кластеру.

Подход, который использует метод K-средних, называется Максимизация ожиданий.

Каковы варианты использования кластеризации K-средних?

Алгоритм K-Means очень популярен и используется в различных приложениях, таких как:

  1. Классификация документов
  2. Оптимизация магазина доставки
  3. Выявление мест совершения преступлений
  4. Сегментация клиентов.
  5. Статистика Fantasy League.
  6. Обнаружение страхового мошенничества.
  7. Анализ данных о поездках.
  8. Киберпрофилирование преступников.
  9. Подробный анализ записи звонков
  10. Автоматическая кластеризация оповещений в крупных компаниях

Здесь, в этой статье, мы в основном сосредоточимся на случае использования кластеризации K-средних в перспективе домена безопасности.

Использование кластеризации K-средних в домене безопасности:

Вот некоторые из областей, характерных для безопасности, где мы можем использовать кластеризацию K-средних:

1). В разделе «Выявление районов, подверженных преступности»:

с данными, касающимися преступлений, доступных в определенных местах в городе или районе, категория преступления, район преступления и связь между ними могут дать качественные знания о склонных к преступности районах в пределах города или местности, которые могут будет дальнейшая проверка качества и помощь полиции, чтобы следить за этими областями.

2) Обнаружение мошенничества в страховом отчете:

Алгоритмы машинного обучения используются в различных областях, таких как здравоохранение, автомобили и т. д. Люди, заявляющие о мошенничестве Страхование также может быть сгруппировано, используя прошлые исторические данные о мошеннических претензиях людей, можно изолировать и отделить новые претензии на основе их близость к кластерам, которые указывают на мошеннические схемы в отчете, предоставленном пользователем. Это помогает компании сэкономить миллионы рупий в страховых случаях мошенничества.

3) Анализ профилирования преступников:

киберпрофилирование — это процесс сбора данных от групп и отдельных лиц для выявления существенных взаимосвязей. Идея киберпрофилирования основана на использовании профилей преступников, которые предоставляют информацию о следственном отделе для определения типа преступления и преступников, присутствующих на месте преступления.

4) В системе обнаружения вторжений и в домене сетевой безопасности:

IDS или система обнаружения вторжений помогают компании узнать о потенциальных атаках или посылаемых им пакетах. В этом домене можно использовать Kmeans Clsutering для кластеризации аналогичных действий, чтобы сообщать в будущем для большей точности и уменьшения количества отчетов об ошибках.

Это были некоторые из вариантов использования K-Means Clustering в доменах безопасности.

Вывод:

Я надеюсь, что моя статья дала вам глубокие знания о кластеризации K-средних, а также о ее вариантах использования в области безопасности. Хотя каждый день появляется новый алгоритм для повышения точности модели машинного обучения Старые алгоритмы как кластеризация K-средних по-прежнему играет важную роль в мире неконтролируемого обучения модели.

Спасибо за чтение !