О прожекторах, радиолокационных диаграммах и о том, как разобраться в кластерах

Понимание значения кластеров, возможно, важнее, чем их создание. Процесс создания кластеров более математически ориентирован, однако интерпретация кластеров не является простой задачей.

В этой истории вы увидите визуальный подход к интерпретации кластеров. Описанный здесь визуальный подход использует два визуальных метода — лепестковую диаграмму и прожектор. Хотя радарная диаграмма достаточно известна, метод прожектора является одним из самых малоиспользуемых методов специалистами по обработке и анализу данных. Здесь вы увидите, насколько он мощный и визуально привлекательный.

Но сначала давайте начнем с насущной проблемы — интерпретации кластеров.

Итак, у вас есть красивые гроздья. Что теперь?

На рисунке ниже показаны результаты кластеризации K-средних для автомобилей, связанных с данными. Данные содержат различные марки автомобилей и связанную с ними информацию, такую ​​как длина, ширина, мощность, цена и т. д. В наборе данных более 25 полей, поэтому для визуализации кластеров выбран метод PCA с уменьшением размерности.

Хорошая новость заключается в том, что кластеры хорошо сформированы и хорошо видны на приведенном выше рисунке. Плохая новость заключается в том, что настоящая работа по пониманию того, что означают кластеры, еще не проделана.

Краткий обзор возможных подходов к интерпретации кластеров

Существует несколько алгоритмических подходов, которые мы можем использовать для интерпретации кластеров. Вы можете обратиться к моей статье здесь о различных алгоритмических подходах, таких как анализ собственных векторов PCA или использование машинного обучения для интерпретации кластеров.

Эти алгоритмические подходы интересны, однако вносят дополнительную сложность. Итак, давайте посмотрим на визуальный подход к проблеме.

Давайте добавим скопления на наш радар!

Давайте теперь составим радиолокационную карту наших скоплений! Но, во-первых, вы можете спросить, почему радиолокационная карта? Чтобы ответить на ваш животрепещущий вопрос, позвольте мне констатировать два факта.

Интерпретация кластера на самом деле означает определение кластера с точки зрения измерений в данных. Поскольку в данных есть несколько измерений,

Кластерная интерпретация — задача «многомерного» анализа

Теперь о втором факте.

Радарная диаграмма — это «многомерный» метод визуализации.

Радарные диаграммы круче, чем точечные диаграммы, гистограммы и т. д., поскольку они помогают визуализировать данные в нескольких измерениях. Таким образом, это идеальный метод для проблемы интерпретации кластеров.

Вот радарная диаграмма, основанная на результатах кластеризации. Цвет групп соответствует кластерам — красный, зеленый и синий.

Ух ты! Многомерная визуализация выглядит намного лучше, чем двумерная диаграмма рассеяния. В левой части лепестковой диаграммы есть числовые поля данных. Правая сторона имеет категориальные поля.

Теперь давайте сделаем еще один шаг, проанализировав различия между красной, зеленой и синей группами, как показано на рисунке ниже.

Вы заметите, что числовые поля слева имеют четкое разделение между красной, зеленой и синей областями. Однако категориальные поля с правой стороны не имеют четкого разделения и кажутся перепутанными. Это означает, что числовые поля являются хорошими кандидатами для интерпретации кластеров.

Мы видим, что красный кластер имеет низкие значения высоты, веса, количества цилиндров, объема двигателя и цены. Синий кластер имеет средние значения в этих полях, а зеленый кластер имеет высокие значения. Мы можем перевести это наблюдение в следующие утверждения

  • красный кластер - это кластер малолитражных автомобилей
  • синий кластер - это автомобильный кластер среднего размера
  • зеленый кластер - это большой автомобильный кластер

Потрясающий! Это уже прорыв, так как он дал нам то, что мы ищем — смысл каждого кластера.

Теперь давайте поднимем интерпретацию кластеров на следующий уровень с помощью техники точечного освещения.

Обратите внимание на кластеры!

До сих пор у нас было значение, связанное с каждым кластером, например, красный кластер для автомобиля небольшого размера. Однако у нас нет того уровня числовых полей, которые классифицируют автомобиль как малолитражный. Например, какое значение цены или объема двигателя будет означать маленькую машину?

Ответим на этот вопрос, используя технику прожектора.

Spotlighting — это способ выделить определенные данные, не скрывая остальных.

Как я упоминал ранее, прожектор — один из самых эффективных, но наиболее малоиспользуемых методов визуализации специалистами по данным.

Чтобы продемонстрировать технику, мы возьмем нашу диаграмму рассеяния, которая была показана ранее. Затем мы выберем одно из числовых полей, изменим его значение, чтобы увидеть, а затем прожекторы, которые являются точками, будут подсвечены. Ниже показано анимированное изображение, демонстрирующее технику прожектора.

Вы заметите, что между ценой от 0 до приблизительно 11000 красный кластер выделяется, а другие кластеры становятся бесцветными. Однако они не исчезают. Это называется точечным освещением. Это намного мощнее, чем фильтрация, так как все точки данных остаются на визуализации.

Вот результаты точечного освещения, показанные в виде изображений.

Выделение красного кластера

Выделение синего кластера

В центре внимания зеленый кластер

Вы заметите, что даже при небольшом перекрытии точечное освещение помогает определить пороговые значения для числовых полей.

Мы можем сделать следующий вывод:

  • красный кластер, представляющий собой кластер малолитражных автомобилей, включает все автомобили стоимостью менее примерно 11000
  • синий кластер, представляющий собой кластер автомобилей среднего размера, — это все автомобили выше 11000, а также весом менее 3000
  • зеленый кластер, представляющий собой крупногабаритный автомобильный кластер, все автомобили выше 11000, а также весом более 3000

Это невероятно! Теперь у нас есть точные определения наших кластеров! Давайте дадим ему имя — Точная кластерная интерпретация! Вы нигде не встретите эту терминологию, а здесь вы впервые ее увидели! Поздравляем!

Ссылка на источник данных

Данные взяты с https://archive.ics.uci.edu/ml/datasets/automobile.

Дуа, Д. и Графф, К. (2019). Репозиторий машинного обучения UCI [http://archive.ics.uci.edu/ml]. Ирвин, Калифорния: Калифорнийский университет, Школа информационных и компьютерных наук.

Теперь твоя очередь!

Вы можете посетить мой веб-сайт, чтобы сделать кластерную интерпретацию, а также другую аналитику без кодирования. https://experiencedatascience.com

Вот пошаговое руководство на моем канале Youtube. Вы сможете настроить демонстрацию под свои данные с нулевым кодированием.

Пожалуйста, подпишитесь, чтобы быть в курсе, когда я публикую новую историю.



Вы также можете присоединиться к Medium по моей реферальной ссылке. Спасибо.