Прежде чем двигаться дальше, я бы хотел, чтобы вы все забыли о K и Mean и просто сосредоточились на кластеризации, и со временем все прояснится.

Что такое Кластеризация?

Кластеризация — ключевой метод науки о данных, который не требует размеченных данных. Это означает, что кластеризация подпадает под обучение без учителя.

Всем известно, что кластер означает группу похожих вещей или людей, расположенных или встречающихся близко друг к другу.

То, как мы выносим суждения , очищаем наши данные , группируем подобные типы данных в одну сторону от остальных, называется кластеризацией .

Что такое K-кластер?

K Средний член вводит тип ограничения на способ выполнения операции группировки. Итак, здесь мы в основном выполняем кластеризацию в следующих шагах:

Шаг 1. Выберите количество кластеров k

Этот шаг можно выполнить вручную или с помощью определенных алгоритмов, таких как метод локтя.

Это очень важный гиперпараметр, который необходимо очень тщательно выбирать, иначе модель будет иметь определенные ошибки и неполные данные.

Шаг 2. Выберите k случайных точек из данных в качестве центроидов

Этот шаг включает в себя инициализацию средней точки k кластеров. Мы можем использовать некоторый алгоритм для определения точек или просто переназначить их случайным образом, так как эта Кластеризация K среднего является Итеративный подход, поэтому настоящий центроид будет найден позже.

Для K = 2 у нас есть сценарий ниже 👇

Шаг 3. Назначьте каждую точку данных ближайшему центроиду, который сформирует предопределенные K кластеров.

Расстояние до всех точек оценивается по k центроидам, и ближайший возможный центроид группируется как часть K-го кластера.

Для K = 2 у нас есть сценарий ниже 👇

Шаг 4: Рассчитайте дисперсию и поместите новый центроид каждого кластера.

Стандартное отклонение или значение среднего, рассчитанное для k-го кластера отдельно и нового центроида, будет распределено в соответствии со средним значением.

Шаг 5. Повторите третий шаг, то есть переназначьте каждую точку данных новому ближайшему центроиду каждого кластера.

После оценки нового центроида сделайте из него k кластеров аналогичным образом, назначив точки их ближайшему центроиду.

Шаг 6. Продолжайте выполнять итерации по кластеру, пока не получите желаемые результаты.

Окончательный кластер, сформированный после этого шага, лучше всего подходит для удовлетворения всех потребностей K кластеров, и, таким образом, мы можем разделить k похожих объектов вместе.

Как это используют Детективы 🤔?

В нынешнем поколении, где огромное количество технологических преступлений захватывает человечество, речь идет не только о киберпреступлениях. Во многих странах или некоторых крупных городах, таких как Африка, имели место случаи воровства.

  • Преступления этим не ограничиваются. Есть Банковское мошенничество, Нападение, Торговля людьми, которые иногда даже могут привести к Убийству 😶. В зависимости от типа преступления мы можем определить вероятное место, где должно произойти преступление.

Одна вещь, почему может быть какая-то корреляция 😕?

Да, корреляция будет, потому что ваше окружение играет жизненно важную роль в определении того, кем вы являетесь. Хотя исключения есть везде, но природа 85% в той или иной местности остается неизменной.

  • Кластеризация средних значений также используется в таком случае для сбора подозреваемых, имеющих схожие свойства, такие как обвинение в преступлении и его связь с людьми из определенного места.
  • Его можно использовать для обучения вновь объединенных сил в районе, чтобы иметь предварительно загруженные данные об ожидаемой преступности в этом районе. Тем самым предотвращая будущие инциденты.

Вот некоторые идеи о кластеризации K-mean и ее связи в области безопасности. Надеюсь, вам понравилось 😊.

использованная литература

Алгоритм кластеризации K-средних — Javatpoint