Изучение методов кластеризации по географическим и другим измерениям

В этом посте рассказывается о попытках определить более однородные районы для проекта по прогнозированию джентрификации в Филадельфии. Подробнее о проекте в целом см. в этой публикации.

Районы являются важной характеристикой городов, многие из которых имеют развивающиеся субкультуры и образ жизни. В вычислительном отношении определение границ района может быть очень сложным. Измерения за предопределенными пространственными границами могут привести к искажению данных, известному как проблема изменяемой единицы площади (MAUP). Вместо этого можно использовать методы кластеризации, чтобы очертить более внутренне однородные области для анализа. Было показано, что механизмы кластеризации, такие как агломеративная иерархическая кластеризация и K-средние, в сочетании с анализом основных компонентов для уменьшения размерности различных характеристик жилья значительно улучшают гедонистический анализ цен на жилье.

Целью кластеризации в этой модели является определение более однородных по цене районов в надежде повысить прогностическую способность признака средней цены района. Цель кластеризации — максимизировать однородность внутри кластера, что означает минимизацию суммы квадратов ошибок внутри кластера.

Где c — кластер, а p — каждый участок в этом кластере.

Алгоритмы агломеративной иерархии и кластеризации DBSCAN сравнивались с базовой производительностью заранее определенных районов.

В алгоритмах кластеризации выбор меры расстояния имеет решающее значение. Географическое расстояние имеет большое значение, поскольку нам нужны компактные районы. Рыночная стоимость — это третье измерение, которое необходимо учитывать при определении расстояния. При объединении расстояния по рыночной стоимости и физического расстояния между участками оба показателя были нормализованы по шкале от 0 до 1. По сути, это взвешивает разницу между домами с самой низкой и самой высокой рыночной стоимостью так же, как пространственную разницу между участками на противоположных концах. города.

Агломеративная иерархическая кластеризация, реализованная в R с помощью пакета ClustGeo, принимает количество желаемых кластеров в качестве параметра и выводит назначения кластеров для каждой входной точки. В начале выполнения алгоритм рассматривает каждую точку как отдельный кластер. Затем кластеры последовательно объединяются с другими кластерами или точками на основе близости. Итеративное создание этих кластеров отслеживается по мере создания древовидной структуры. Дерево, или дендрограмма, «разрезается» на высоте, гарантирующей желаемое количество входных кластеров.

Пакет ClustGeo позволяет передавать две матрицы расстояний D0 и D1, добавляя параметр, который описывает дробную величину, учитываемую каждой матрицей расстояний.

В этом случае одна матрица расстояний представляет собой расстояние рыночной стоимости, а другая матрица расстояний — это физическое расстояние. После запуска проверки гиперпараметров по параметру смешивания и количеству желаемых кластеров K, = 0,1, было установлено, что рыночная стоимость больше взвешивается, чем расстояние, чтобы минимизировать сумму квадратов ошибок внутри кластера.

При выборе можно выбрать количество кластеров K. Для каждого K рассчитывается средняя цена соответствующих районов. Ошибка, показанная ниже, представляет собой среднюю сумму квадратов ошибок в пределах кластера.

Как интуитивно понятно, ошибка уменьшается по мере увеличения количества кластеров. Каждый кластер становится меньше и, скорее всего, будет содержать дома с одинаковой ценой. Одной из распространенных эвристик для выбора оптимального K является определение «локтя» или точки наибольшего замедления на графике ошибок. В данном случае этот изгиб происходит при K=8.

Ввод желаемого количества кластеров может быть нелогичным, поскольку истинное оптимальное количество кластеров может быть неизвестно. Алгоритм пространственной кластеризации приложений с шумом на основе плотности, или DBSCAN, не предопределяет количество кластеров. Вместо этого он определяет кластеры на основе двух параметров: расстояния в эпсилон e и минимального количества точек mp. Во-первых, основные точки назначаются как те, у которых по крайней мере mp другие точки в радиусе e. Эти точки образуют основные кластеры. Затем граничные точки назначаются как те, у которых есть хотя бы одна основная точка в радиусе e. Все остальные точки являются шумом и не относятся к кластеру.

По сравнению с базовой средней ошибкой для цен на жилье ни одна из исследованных пар гиперпараметров e и mp не имела ошибки, близкой к ошибке простого использования существующих районов.

Установив оптимальные гиперпараметры как для агломеративной, так и для DBSCAN-кластеризации, я взял выборку из 10 000 посылок, чтобы выполнить кластеризацию и сравнить результаты. Я использовал диаграммы Вороного для экстраполяции окрестностей из заданных кластерных назначений на небольшую выборку точек. Я рассчитал географический центр тяжести каждого кластера точек в одном районе и использовал алгоритм Вороного для отображения окрестностей. Таким образом, формы кластеров экстраполируются за пределы точек выборки, используемых для создания кластеризации. Результаты диаграмм Вороного показаны ниже.

Ни один из алгоритмов кластеризации не смог создать районы, которые были бы более однородными, чем районы, существовавшие ранее. У этого результата есть несколько возможных причин, и все они сводятся к измерению расстояния и масштаба. Не существует четко определенного способа сравнения двух измерений расстояния, рыночной стоимости и географического расстояния. Хотя необходимо учитывать и то, и другое, чтобы создать однородные, географически компактные районы, компромисс не ясен. Даже если бы мы знали, что географическая близость более важна, чем близость цен, трудно указать эту важность в последовательной шкале. Масштаб также может не совпадать в разных районах города. Плотность посылок в центре города намного выше, чем в пригородах, что затрудняет глобальное определение параметра расстояния в эпсилоне в DBSCAN. Более низкие значения эпсилон будут дискриминировать более разбросанные пригороды, создавая больше основных точек в центре города. Более высокие значения эпсилон были бы слишком допустимыми и пропускали бы меньшие кластеры посылок с одинаковой ценой. Хотя кластеризация на основе данных является известной проблемой в геопространственной аналитике, связь между ценой на жилье и расстоянием необходимо изучить более тщательно, прежде чем можно будет использовать стандартную шкалу в этих алгоритмах кластеризации.