— — Исследуйте базовые модели общественных пространств потребления Чикаго с помощью кластеризации K-средних и полиномиальной логистической регрессии.

Виктория Ван

Введение
Сегрегация всегда была критической проблемой для Чикаго. В то время как общее население города довольно равномерно разделено — примерно 32 процента белых, 30 процентов черных и 29 процентов латиноамериканцев, эти люди разделены на 77 различных сообществ, живущих совершенно разными жизнями.

Место, где вы живете, очень сильно влияет на все аспекты вашей жизни, — сказала Мария Крисан, профессор социологии Иллинойского университета в Чикаго, в отчете CBS. Действительно, жители Чикаго с разным расовым или экономическим происхождением не только живут в разной жилой среде, но также имеют доступ к совершенно разным общественным пространствам и ресурсам, что, в свою очередь, определяет их образ жизни. Этот проект исследует один конкретный аспект жизни жителей Чикаго — их варианты потребления в соответствующих жилых помещениях.

Потребление работает как способ создания и выражения социальной принадлежности и различия, и эти направления, ориентированные на конкретных пользователей, включают одних и исключают других (Бользони, 2016). Разумно предположить, что сегрегация в городе Чикаго может отражаться в повседневном потреблении людей — другими словами, в их возможностях тратить деньги на еду, розничные товары, занятия и т. д. Этот проект призван проверить это предположение. Помимо сегрегации по месту жительства, есть ли у граждан с разным социальным статусом различные возможности в общественных местах потребления?

Это может быть предварительным шагом в дальнейших исследованиях социально-экономической сегрегации в городских районах США. Предыдущие исследования в основном были сосредоточены на распределении городского населения по месту жительства, в то время как этот проект направлен на поиск моделей пространственной сегрегации, связанных с использованием и доступностью мест общественного потребления. Результат этого исследования может представлять интерес для ученых, политиков, социальных работников и/или активистов, а также для тех, кого непосредственно затрагивает такая сегрегация.

Сбор и предварительная обработка данных
Доступность сообщества к определенному типу мест измеряется распространенностью — или частотой появления — этого типа мест. Если определенные типы мест обычно присутствуют в районе сообщества, можно сделать вывод, что жители этого сообщества больше подвержены воздействию этих типов мест. Используя API FourSquare, я искал места в радиусе 2,5 км от каждого общественного центра с верхним пределом в 100 мест на сообщество. Стоит отметить, что радиус поиска 2,5 км не вполне удовлетворителен для получения площадок для небольших населенных пунктов (радиус территории населенных пунктов менее 2,5 км), что может привести к ложному включению площадок, принадлежащих соседним с ними сообществам.

Характеристики жителей отдельных сообществ даны на основе данных, извлеченных из двух источников демографических данных города Чикаго, включая данные переписи населения Чикаго 2017 года и моментальные снимки сообщества Чикаго. Эти показатели дают достаточную информацию о личном развитии жителей, их финансовом благополучии и расовой идентичности в каждом сообществе.

Кластеризация K-средних

Первым шагом этого проекта является кластеризация 77 общественных районов Чикаго на основе 10 наиболее часто встречающихся типов мест проведения в каждом районе. Частота встречаемости для каждой категории мест проведения в каждом районе сообщества рассчитывается на основе набора данных, полученного FourSquare. Для каждой области сообщества выбираются 10 наиболее часто встречающихся типов мест проведения.

Чтобы поместить сообщества с похожими типами мест в одни и те же группы, я применил метод кластеризации K-средних к набору данных мест.

Точность модели K-средних сильно зависит от количества кластеров, выбранных для модели, а именно от значения K. Чтобы определить оптимальное значение K для этой модели, я применил два метода перекрестной оценки K при значениях 3. до 10:

  1. Метод Критерий локтя. Этот метод направлен на поиск наименьшего значения k, при котором SSE (сумма стандартных ошибок — расстояния от выборок до их ближайшего центра тяжести кластера) резко приближается к 0. Сравнительно оптимальная SSE показывает при k = 5 или 6.
  2. Измерение Коэффициент силуэта. Более высокий коэффициент силуэта указывает на более плотные кластеры и более четкие границы между каждым кластером. В то время как все Ks дают довольно низкие коэффициенты силуэта, число выше, когда k = 3, 4 или 5.

Учитывая результаты двух вышеуказанных измерений, оптимально, если чикагские общины будут разделены на 5 кластеров. На карте в начале этого блога показаны 77 чикагских населенных пунктов, отмеченных метками кластеров. Интуитивно понятно, что сообщества, отмеченные на этой карте одним цветом, должны иметь схожие схемы расположения мест проведения мероприятий.

Исследуйте шаблоны мест проведения в кластерах

Во-первых, я смотрю на данные кластеризации самостоятельно. Я нахожу 5 наиболее часто встречающихся типов мест в каждом из пяти кластеров, чтобы изучить модели внутри кластеров и расхождения между кластерами. Следующий пузырьковый график показывает результат.

Что касается ресторанов, то сообщества в кластере 0 и кластере 2 имеют почти исключительно рестораны быстрого питания, которые, по здравому смыслу, очень вредны для здоровья, но сытны, более удобны и, что наиболее важно, дешевле. Для сравнения, сообщества в кластере 3 хорошо развлекаются в кафе, итальянских и японских ресторанах среднего и высокого класса. У них также есть возможность посещать музеи и отели. Сообщества в Кластерах 1 и 4 имеют более равномерное распределение мест проведения, каких-либо четких закономерностей пока не отмечается.

Исследуйте атрибуты резидентов сообщества по кластерам

Затем данные кластера изучаются вместе с данными, обозначающими атрибуты резидентов каждого сообщества. Во-первых, я смотрю на показатели общего финансового положения сообществ, уровня образования, уровня занятости и возрастного состава:

В сообществах кластера 0, 2 и 4 проживают люди с низким доходом. В кластерах 1 и 3, несмотря на существование сообществ с низким доходом, среднее финансовое положение сообществ в этих двух кластерах высокое. Кластеры 0 и 4 имеют явно высокий уровень безработицы; Кластер 2 особенно высок в низком уровне образования. Наконец, как показывает последняя диаграмма, в то время как первые четыре графика имеют одинаковое процентное соотношение молодых и старых, кластер 4 особенно высок в этой части.

Эти результаты соответствуют выводам из предыдущего раздела, из которых следует, что сообщества в кластерах 1 и 3 имеют относительно дорогие места потребления, в то время как сообщества в остальных кластерах имеют противоположное.

Затем я изучаю расовый состав жителей сообществ в каждом кластере. Несмотря на несколько отклонений, эти графики демонстрируют четкую расовую сегментацию между кластерами.

Сообщества с высоким процентом белых жителей, представленные на первой диаграмме, в основном входят в кластеры 1 и 3, где преобладают высококачественные места потребления. . Кластеры 0 и 4 заполнены сообществами чернокожих, в некоторых из которых процент чернокожих превышает 95%; Кластер 2 показывает ту же черту для жителей латиноамериканского происхождения. Эти три группы сообществ представляют собой объединения фаст-фуда и дисконтных магазинов.

Хотя очевидной тенденции в распределении азиатско-ориентированных сообществ нет, кластер 1 включает два отдаленных сообщества с высоким процентом жителей азиатского происхождения. Как показывают случаи в других городах США, жители Азии меньше по общей численности населения и, как правило, проживают коллективно в одном или двух небольших централизованных пространствах. Эти два сообщества, по-видимому, являются такими пространствами для Чикаго.

Короче говоря, предварительный анализ показывает, что существуют некоторые несоответствия в характеристиках жителей между этими кластерами чикагских сообществ, созданными местом проведения мероприятия. В частности, для сообществ, которые, как правило, имеют более дорогие и более дорогие варианты потребления, жители в среднем являются высокообразованными, хорошо оплачиваемыми взрослыми, которые также в основном белые. С другой стороны, в сообществах, переполненных забегаловками быстрого питания и комиссионными магазинами, большое количество жителей, часто небелых, имеют более низкий уровень образования и доходов.

Полиномиальная логистическая регрессия

Итак, существует ли реальная связь между местами общественного потребления (т. е. местами проведения) и экономическими/расовыми характеристиками жителей? Основываясь на выводах из приведенного выше исследовательского анализа, я использую мультиномиальную модель логистической регрессии, чтобы проверить, действительно ли характеристики резидентов, изученные в предыдущем разделе, связаны с группировкой сообществ, созданной местом проведения.

Полиномиальная логистическая регрессия применима к этому набору данных по двум причинам. Во-первых, он позволяет категориям зависимых переменных иметь более двух уровней. В этом случае метки кластера рассматриваются как зависимая переменная, которая имеет пять уровней, поскольку имеется пять кластеров; резидентные признаки рассматриваются как независимые переменные. Во-вторых, он не предполагает нормальности, линейности или гомоскедастичности независимых переменных. В этом случае независимые переменные нелегко нормально распределить, и трудно доказать их линейность и гомоскедастичность.

Сводная статистика модели логистической регрессии дает несколько неоднозначное сообщение, но в целом результат разумно свидетельствует в пользу вывода о том, что существует истинная связь между независимыми и зависимыми переменными.

Общая сводка полной модели показана ниже. Псевдо-R-квадрат вычисляется на основе отношения максимизированной логарифмической функции правдоподобия для нулевой модели «M0» и полной модели «M1». Значения псевдо-R-квадрата, близкие к 0, означают, что модель существенно не повышает достоверность оценки категоризации зависимых переменных, в то время как близкие к 1 означают, что модель идеально подходит, а отношение логарифмических шансов максимально до 0. В этой модели это значение составляет ~ 0,6, что указывает на то, что полная модель работает немного лучше, чем посредственная.

Индикаторы LLR оценивают эффективность полной модели по сравнению с нулевой моделью (в которой индикаторы не учитываются). Значение p LLR, в частности, указывает вероятность наблюдения тестовой статистики, предполагающей нулевую гипотезу (H0), где коэффициент совокупности равен нулю. В этой модели значение p значительно ниже и составляет 4,166e^-14, что говорит о том, что мы можем отвергнуть нулевую гипотезу о том, что нулевая модель работает лучше, чем полная модель.

Обсуждения

Исследовательский анализ создает впечатление, что существуют тесные связи между социальными, экономическими и культурными атрибутами жителей и их соответствующими типами пространства потребления в районах Чикаго.

Модель логистической регрессии, с другой стороны, имеет свои недостатки. Показывая, что типы пространства потребления действительно связаны со всеми атрибутами жителей в целом, его результат может быть подорван мультиколлинеарностью, статистическим явлением, при котором переменные-предикторы в модели логистической регрессии сильно коррелируют. Социальная, расовая и экономическая сегрегация неизбежно представляют собой глубоко взаимосвязанные явления, оказывающие большое влияние друг на друга. Следовательно, использование этих переменных, указывающих на сегрегацию по этим трем аспектам, подвергает модель определенному риску мультиколлинеарности, что не позволяет модели наблюдать некоторые значимые корреляции между отдельными индикаторами и зависимой переменной.

В будущих исследованиях может быть использован более строгий подход, такой как использование регрессии гребня или анализа главных компонентов (CPA), чтобы свести к минимуму искажающее влияние мультиколлинеарности; или разбить полную модель и сравнить производительность различных частичных моделей.

Заключение

Повседневный опыт говорит нам всем, что разные пространства потребления служат разным группам в обществе, и этот проект дает грубое доказательство этого распространенного восприятия.

В рамках проекта проводится достаточно полный, хотя и рудиментарный анализ взаимосвязи между вариантами общественного потребления и социальной, экономической и культурной сегментацией жителей чикагских сообществ. Между ними прослеживается признак корреляции, хотя это не полностью подтверждается следующим анализом логистической регрессии.

Анализ показывает, что определенные варианты потребления продуктов питания и занятий более распространены в сообществах с низким доходом и расовых меньшинств, таких как рестораны быстрого питания. С другой стороны, группам населения с более высоким доходом, в основном белым, предоставляется возможность потратить деньги на изысканные рестораны и более изысканные развлечения, такие как отели и музеи.

В будущих исследованиях может быть проведено более тщательное исследование основных причин того, почему разные типы заведений открываются в разных сообществах. Исследования также могут более глубоко изучить влияние такого расхождения вариантов потребления на аспекты жизни жителей Чикаго, такие как их физическое, психическое или социальное благополучие.