В быстрорастущем пригороде Далласа у нас есть владелец 2 школ Монтессори. Обе школы вполне успешны. Города, в которых находятся эти школы, совершенно разные: один основанный город Плано, а другой - растущий город Фриско.

Теперь есть план расширения на другие города Далласа. Расшифровка того, что сделало школы в нынешних местах, является предметом обсуждения и исследования, которое, вероятно, потребует больших затрат времени и средств.

Как оказалось, я работал над проектом профессионального курса IBM по науке о данных и думал, что это хорошая проблема, которую нужно решить. Я подумал, что в этих местах должно быть что-то общее, и с учетом нужного количества данных я смогу это выяснить. Сначала мне нужно было выяснить, какие данные мне нужны и откуда их взять.

Требования к данным

В дошкольной возрастной группе есть детские сады, дошкольные учреждения, детские сады и школы Монтессори. Методика обучения Монтессори отличается от других дошкольных учреждений и детских садов. Учителя школы Монтессори должны пройти специальную подготовку. Это способствует тому, что эти школы дороже, чем другие дошкольные учреждения, поэтому родители, отправляющие своих детей в эти школы, должны быть, по крайней мере, в группе доходов среднего класса. Это указывает на данные о доходах. В зависимости от дохода родителей вы можете предсказать, какое образование получит их ребенок или дети.

Еще один фактор, который необходимо учитывать: каковы соревнования? Сколько школ в этом районе? Это указывает на получение списка всех дошкольных учреждений в этом районе.

Нам нужно ориентироваться на регионы с большим количеством детей младше 5 лет, поскольку именно они будут посещать школу Монтессори. Это означает, что нам нужна демографическая информация, и нам нужен способ найти интересующую область и разбить ее на более мелкие области для сравнения друг с другом. Я использовал для этого почтовые индексы. Для начала я использую свой почтовый индекс 75035.

Подводя итог, нам понадобится:

  1. Все почтовые индексы в пределах 100 миль от моего местоположения - данные с сайта https://www.zipcodestogo.com/lookups/radius-search.php
  2. Данные о местоположении для всех почтовых индексов в Техасе - https://github.com/OpenDataDE/State-zip-code-GeoJSON
  3. Данные переписи для каждого почтового индекса
  4. Данные о населении - Общая численность населения и дети до 5 лет
  5. Профиль доходов для каждого почтового индекса
  6. Данные о жилье для каждого почтового индекса
  7. Foursquare API - для поиска учебных заведений по каждому из почтовых индексов

Методология

Первый шаг - получить почтовые индексы в радиусе 100 миль от текущего местоположения. Для простоты я взял свое местоположение за центр и получил данные для окружающих почтовых индексов. Это наша сфера интересов.

Следующим шагом будет получение данных о местоположении для каждого из почтовых индексов. К счастью, это обычная проблема, и мне удалось найти файл с открытым исходным кодом, в котором указаны все требуемые почтовые индексы и их широта и долгота. Хотя они могут быть неточными, они служат цели.

После подготовки данных о местонахождении следующим шагом будет получение количества дошкольных учреждений в почтовом индексе. API Foursquare были полезны в этом контексте, но создавали несколько проблем:

1. API-интерфейсы зависят от предоставленной широты, долготы и радиуса для поиска мест. Поскольку почтовые индексы сильно различаются по площади, применение этого решения не является одношаговым. Чтобы решить эту проблему, я сопоставил почтовые индексы из мест, где были получены результаты, с почтовым индексом, который я искал, эффективно ограничив его интересующим почтовым индексом.

2. Еще одна проблема заключалась в категориях. Foursquare имеет дошкольные учреждения разных категорий:

а. Детский сад - 4f4532974b9074f6e4fb0104

б. Дошкольное учреждение - 52e81612bcbc57f1066b7a45

c. Детский сад - 4f4533814b9074f6e4fb0107

Для школы Монтессори нет отдельной классификации. Это означает, что я нашел намного больше школ, чем ожидал. Хотя школа Монтессори будет конкурировать с другими школами Монтессори, целевая демографическая группа будет такой же, независимо от типа школы. Итак, это пошло мне на пользу!

3. Данные, возвращаемые Foursquare, не были согласованными, поля почтового индекса и города не возвращались согласованно. Мне пришлось их обойти и по умолчанию.

Затем школьные данные были агрегированы по почтовым индексам.

Затем были получены данные переписи. Это сложно, поскольку данных слишком много, и они распределены по нескольким таблицам. Проведя небольшое исследование данных, я составил 3 таблицы, каждая из которых соответствует данным о жилищном строительстве, доходе и возрасте из оценки 2017 года. Я удалил ненужные столбцы и переименовал их в более удобочитаемый формат.

Объединение этих данных было выполнено по столбцам с почтовым индексом.

После слияния K-means использовался для кластеризации данных вместе. Некоторые почтовые индексы, не содержащие необходимых данных, были удалены из набора данных.

k -means clustering - это метод векторного квантования, исходящий из обработки сигналов, который популярен для кластерного анализа при интеллектуальном анализе данных. k -средний кластеризация направлена ​​на разделение n наблюдений на k кластеров, в которых каждое наблюдение принадлежит кластеру с ближайшим средним значением, служащим прототипом. кластера.

После первого набора кластеров оба местоположения попали в разные кластеры. Я использовал кластеризацию локтей K-средних, чтобы убедиться, что текущие школы находятся в одном кластере.

Как только это было сделано, чтобы посмотреть на области с наименьшей конкуренцией, я использовал отношение количества детей до 5 лет к количеству дошкольных учреждений, чтобы выбрать лучший почтовый индекс, чтобы открыть новый Монтессори в интересующей области.

Результаты и обсуждение

Из 217 различных почтовых индексов, участвовавших в битве за эти районы, было сформировано 5 кластеров. Количество кластеров было выбрано произвольно.

Я проверил, что кластеры сформированы таким образом, что оба местоположения находятся в одном кластере.

Затем этот кластер был отсортирован по соотношению детей и дошкольников, и победителем стал почтовый индекс 75078 - близлежащий пригород Проспера.

Проспер имеет много общего как с Плано, так и с Фриско, о которых я знаю по анекдотам, и теперь это подтверждается этим упражнением.

  1. Фриско и Проспер - новые и предстоящие локации
  2. Все 3 города с высоким уровнем доходов в основном сформированы экспатами из других штатов.
  3. Фриско и Плано являются домом для некоторых новых компаний по трансплантации со всех концов США, в то время как Фриско и Проспер также служат спящими городами для рабочего класса.

Ниже выделены существующие местоположения внизу и предлагаемое вверху.

Вывод

K-means предлагает способ найти похожие данные на основе их характеристик. В этом эксперименте такая кластеризация помогла выявить целую кучу почтовых индексов, похожих на текущие местоположения школ.

Хотя это дает хорошее направление к тому месту, где лучше всего открывать школу, есть некоторые предостережения:

  1. Рассмотренные данные взяты из моего ограниченного исследования и никоим образом не являются исчерпывающими. Этот метод действительно обеспечивает основу для добавления дополнительных функций.
  2. Данные Foursquare не являются исчерпывающими и хранятся в режиме реального времени. В то время как направленная коррекция наземных условий в особенно быстрорастущих пригородах на севере Техаса может быть другим, потребуется ручная проверка или другие источники данных для подтверждения.
  3. Этот анализ не принимает во внимание другую логистику открытия школы, такую ​​как разрешения, поиск местоположения и т. Д.

Независимо от того, откроется ли там школа на самом деле или нет, потребуется дополнительная работа и исследования, но этот анализ действительно дает начало.

Вот ссылка на мою записную книжку, в которой подробно описан приведенный выше анализ:

  1. Блокнот для подготовки данных
  2. Блокнот слияния и анализа данных

Спасибо за чтение и оставьте отзыв!