На этом уроке мы познакомимся с обучением без учителя, типом машинного обучения, целью которого является обнаружение скрытых шаблонов и структур в данных без использования помеченных примеров, а также с алгоритмами кластеризации, общим классом методов обучения без учителя, которые группируют точки данных на основе их сходство. Мы построим интуицию вокруг ключевых концепций и компонентов неконтролируемого обучения и алгоритмов кластеризации.

Обучение без учителя отличается от обучения с учителем, где у нас есть целевая переменная (метка), связанная с входными данными. В неконтролируемом обучении у нас нет помеченных данных, и цель состоит в том, чтобы раскрыть основные закономерности, группировки или отношения в данных.

Интуиция. Воспринимайте неконтролируемое обучение как исследователя, пытающегося понять ландшафт неизвестной территории, обнаруживая особенности и закономерности, наблюдая и анализируя окружающую среду.

Алгоритмы кластеризации — это популярная категория методов обучения без учителя, целью которых является группировка точек данных на основе их сходства, в соответствии с заранее определенным расстоянием или мерой сходства.

Кластеризация K-средних. K-средних – это простой и широко используемый алгоритм кластеризации, целью которого является разбиение данных на K кластеров, где каждая точка данных принадлежит кластеру с ближайшим средним (центроидом). Алгоритм итеративно присваивает точки данных кластерам и обновляет центроиды до сходимости.

Интуиция: представьте, что вы пытаетесь организовать комнату, полную предметов, в K групп на основе их сходства. K-means работает, размещая K «корзин» в комнате и назначая объекты ближайшей корзине. Затем контейнеры перемещаются в центр содержащихся в них объектов, и процесс повторяется до тех пор, пока положение контейнеров не стабилизируется.

Иерархическая кластеризация. Иерархическая кластеризация создает древовидную структуру (дендрограмму), представляющую вложенную группировку точек данных на основе их сходства. Существует два основных подхода: агломеративный (снизу вверх) и разделительный (сверху вниз). Агломеративная кластеризация начинается с каждой точки данных как отдельного кластера и последовательно объединяет ближайшие кластеры, в то время как разделительная кластеризация начинается с одного кластера, содержащего все точки данных, и последовательно разделяет кластеры.

Интуиция: Иерархическая кластеризация похожа на организацию генеалогического дерева, где каждый узел представляет собой группу связанных точек данных, а структура дерева представляет отношения между этими группами.

DBSCAN (Пространственная кластеризация приложений с шумом на основе плотности): DBSCAN — это алгоритм кластеризации на основе плотности, который группирует точки данных на основе их плотности и идентифицирует точки шума, которые не принадлежат ни к одному кластеру. DBSCAN работает, определяя окрестности вокруг каждой точки данных и объединяя перекрывающиеся окрестности, создавая кластеры на основе плотности точек данных.

Интуиция: DBSCAN похож на группировку людей на вечеринке в зависимости от того, насколько они близки друг к другу. Люди, стоящие близко друг к другу, образуют группу, а те, кто стоит в стороне, считаются выбросами или шумом.

Таким образом, неконтролируемое обучение и алгоритмы кластеризации помогают обнаруживать скрытые шаблоны и структуры в данных без использования помеченных примеров. Понимая основные концепции и интуицию, лежащую в основе алгоритмов обучения без учителя и кластеризации, мы можем принимать более обоснованные решения при выборе и оценке моделей машинного обучения.