Всем привет !
Вы когда-нибудь задумывались, как мы можем прочитать огромный набор файлов журнала без меток, чтобы что-то предсказать или проанализировать генетику, например, образцы ДНК для анализа эволюционной биологии, если ответ положительный, то вы находитесь в правильном месте!
Все эти примеры относятся к категории неконтролируемого обучения, т.е. вывод основных закономерностей из немаркированного заданного набора данных без какой-либо ссылки на помеченные результаты или прогнозы.Существует несколько методов или алгоритмов, которые мы можем использовать в неконтролируемом обучении. вот некоторые из примеров:
кластеризация, обнаружение аномалий, нейронные сети и подходы к изучению моделей скрытых переменных.
Здесь, в этой статье, мы обсудим краткое изложение наиболее широко используемой техники обучения без учителя, т. е. кластеризации, которая проста в использовании и применении и имеет различные преимущества, и вариант ее использования в области безопасности, так что же это за кластеризация, в основном она имеет то же значение. как следует из названия, группа определенного набора подобных вещей, хорошие новости! в машинном обучении это означает то же самое с некоторыми добавленными терминологиями, поэтому, вкратце, кластеризация относится к процессу автоматического группирования точек данных с похожими характеристиками и присвоения их «кластерам», а также использования математических концепций для получения правильного прогноза для вашей модели неконтролируемого машинного обучения.
Итак, давайте углубимся в самую старую и доступную технику кластеризации, которая называется Кластеризация K-средних.
Что такое кластеризация K-средних?
K-средства — это метод кластеризации, который группирует немаркированный набор данных в разные кластеры. В этом K определяет количество предварительно определенных кластеров, которые необходимо создать в процессе обучения без учителя, как если бы K = 3, будет три кластера. , а для K=4 будет четыре кластера и так далее.
В основном это алгоритм на основе центроида, где каждый кластер связан с центроидом. Основной подход этого метода заключается в минимизации этой суммы расстояния центроида между соответствующим кластером и точками данных.
Алгоритм берет немаркированный набор входных данных и делит входные данные на разные наборы кластеров. Количество кластеров предопределено в модели. Используя метод локтя, мы можем найти количество кластеров, которые будут подходить для нашей модели, и этот процесс продолжается. повторяя, пока мы не найдем лучший кластер для наших точек данных
K-Means помогает двумя основными способами:
- Определяет наилучшее значение K с помощью итеративного метода поиска центроидов
- Назначает каждую точку данных ее ближайшему k-центру и создает кластер для точек данных с похожими характеристиками.
Идея k-Means заключается в том, что мы хотим добавить k новых точек к имеющимся у нас данным. Каждая из этих точек, называемая центроидом, будет вращаться, пытаясь центрироваться в середине одного из k кластеров, которые у нас есть. Как только эти точки перестают двигаться, наш алгоритм кластеризации останавливается.
Итак, как K означает работу?
Вкратце, мы можем разделить работу по кластеризации K-средних на несколько этапов:
1) Укажите количество кластеров K.
- Инициализируйте, сначала перетасовав набор данных, а затем случайным образом выбрав K точек данных для центроидов без замен.
- Продолжайте повторять до тех пор, пока не будет изменений в центроидах. то есть назначение точек данных кластерам не меняется.
3. Вычислите сумму квадратов расстояний между точками данных и центроидами.
4. Назначение каждой точки данных ближайшему кластеру (найдены центроиды)
5. Вычислите центроиды для кластеров, взяв среднее значение точек данных, принадлежащих каждому кластеру.
Подход, который использует метод K-средних, называется Максимизация ожиданий.
Каковы варианты использования кластеризации K-средних?
Алгоритм K-Means очень популярен и используется в различных приложениях, таких как:
- Классификация документов
- Оптимизация магазина доставки
- Выявление мест совершения преступлений
- Сегментация клиентов.
- Статистика Fantasy League.
- Обнаружение страхового мошенничества.
- Анализ данных о поездках.
- Киберпрофилирование преступников.
- Подробный анализ записи звонков
- Автоматическая кластеризация оповещений в крупных компаниях
Здесь, в этой статье, мы в основном сосредоточимся на случае использования кластеризации K-средних в перспективе домена безопасности.
Использование кластеризации K-средних в домене безопасности:
Вот некоторые из областей, характерных для безопасности, где мы можем использовать кластеризацию K-средних:
1). В разделе «Выявление районов, подверженных преступности»:
с данными, касающимися преступлений, доступных в определенных местах в городе или районе, категория преступления, район преступления и связь между ними могут дать качественные знания о склонных к преступности районах в пределах города или местности, которые могут будет дальнейшая проверка качества и помощь полиции, чтобы следить за этими областями.
2) Обнаружение мошенничества в страховом отчете:
Алгоритмы машинного обучения используются в различных областях, таких как здравоохранение, автомобили и т. д. Люди, заявляющие о мошенничестве Страхование также может быть сгруппировано, используя прошлые исторические данные о мошеннических претензиях людей, можно изолировать и отделить новые претензии на основе их близость к кластерам, которые указывают на мошеннические схемы в отчете, предоставленном пользователем. Это помогает компании сэкономить миллионы рупий в страховых случаях мошенничества.
3) Анализ профилирования преступников:
киберпрофилирование — это процесс сбора данных от групп и отдельных лиц для выявления существенных взаимосвязей. Идея киберпрофилирования основана на использовании профилей преступников, которые предоставляют информацию о следственном отделе для определения типа преступления и преступников, присутствующих на месте преступления.
4) В системе обнаружения вторжений и в домене сетевой безопасности:
IDS или система обнаружения вторжений помогают компании узнать о потенциальных атаках или посылаемых им пакетах. В этом домене можно использовать Kmeans Clsutering для кластеризации аналогичных действий, чтобы сообщать в будущем для большей точности и уменьшения количества отчетов об ошибках.
Это были некоторые из вариантов использования K-Means Clustering в доменах безопасности.
Вывод:
Я надеюсь, что моя статья дала вам глубокие знания о кластеризации K-средних, а также о ее вариантах использования в области безопасности. Хотя каждый день появляется новый алгоритм для повышения точности модели машинного обучения Старые алгоритмы как кластеризация K-средних по-прежнему играет важную роль в мире неконтролируемого обучения модели.
Спасибо за чтение !