Использование науки о данных для начала исследования рынка

В быстрорастущем пригороде Далласа у нас есть владелец 2 школ Монтессори. Обе школы вполне успешны. Города, в которых находятся эти школы, совершенно разные: один основанный город Плано, а другой - растущий город Фриско.

Теперь есть план расширения на другие города Далласа. Расшифровка того, что сделало школы в нынешних местах, является предметом обсуждения и исследования, которое, вероятно, потребует больших затрат времени и средств.

Как оказалось, я работал над проектом профессионального курса IBM по науке о данных и думал, что это хорошая проблема, которую нужно решить. Я подумал, что в этих местах должно быть что-то общее, и с учетом нужного количества данных я смогу это выяснить. Сначала мне нужно было выяснить, какие данные мне нужны и откуда их взять.

Требования к данным

В дошкольной возрастной группе есть детские сады, дошкольные учреждения, детские сады и школы Монтессори. Методика обучения Монтессори отличается от других дошкольных учреждений и детских садов. Учителя школы Монтессори должны пройти специальную подготовку. Это способствует тому, что эти школы дороже, чем другие дошкольные учреждения, поэтому родители, отправляющие своих детей в эти школы, должны быть, по крайней мере, в группе доходов среднего класса. Это указывает на данные о доходах. В зависимости от дохода родителей вы можете предсказать, какое образование получит их ребенок или дети.

Еще один фактор, который необходимо учитывать: каковы соревнования? Сколько школ в этом районе? Это указывает на получение списка всех дошкольных учреждений в этом районе.

Нам нужно ориентироваться на регионы с большим количеством детей младше 5 лет, поскольку именно они будут посещать школу Монтессори. Это означает, что нам нужна демографическая информация, и нам нужен способ найти интересующую область и разбить ее на более мелкие области для сравнения друг с другом. Я использовал для этого почтовые индексы. Для начала я использую свой почтовый индекс 75035.

Подводя итог, нам понадобится:

Все почтовые индексы в пределах 100 миль от моего местоположения - данные с сайта https://www.zipcodestogo.com/lookups/radius-search.php
Данные о местоположении для всех почтовых индексов в Техасе - https://github.com/OpenDataDE/State-zip-code-GeoJSON
Данные переписи для каждого почтового индекса
Данные о населении - Общая численность населения и дети до 5 лет
Профиль доходов для каждого почтового индекса
Данные о жилье для каждого почтового индекса
Foursquare API - для поиска учебных заведений по каждому из почтовых индексов

Методология

Первый шаг - получить почтовые индексы в радиусе 100 миль от текущего местоположения. Для простоты я взял свое местоположение за центр и получил данные для окружающих почтовых индексов. Это наша сфера интересов.

Следующим шагом будет получение данных о местоположении для каждого из почтовых индексов. К счастью, это обычная проблема, и мне удалось найти файл с открытым исходным кодом, в котором указаны все требуемые почтовые индексы и их широта и долгота. Хотя они могут быть неточными, они служат цели.

После подготовки данных о местонахождении следующим шагом будет получение количества дошкольных учреждений в почтовом индексе. API Foursquare были полезны в этом контексте, но создавали несколько проблем:

1. API-интерфейсы зависят от предоставленной широты, долготы и радиуса для поиска мест. Поскольку почтовые индексы сильно различаются по площади, применение этого решения не является одношаговым. Чтобы решить эту проблему, я сопоставил почтовые индексы из мест, где были получены результаты, с почтовым индексом, который я искал, эффективно ограничив его интересующим почтовым индексом.

2. Еще одна проблема заключалась в категориях. Foursquare имеет дошкольные учреждения разных категорий:

а. Детский сад - 4f4532974b9074f6e4fb0104

б. Дошкольное учреждение - 52e81612bcbc57f1066b7a45

c. Детский сад - 4f4533814b9074f6e4fb0107

Для школы Монтессори нет отдельной классификации. Это означает, что я нашел намного больше школ, чем ожидал. Хотя школа Монтессори будет конкурировать с другими школами Монтессори, целевая демографическая группа будет такой же, независимо от типа школы. Итак, это пошло мне на пользу!

3. Данные, возвращаемые Foursquare, не были согласованными, поля почтового индекса и города не возвращались согласованно. Мне пришлось их обойти и по умолчанию.

Затем школьные данные были агрегированы по почтовым индексам.

Затем были получены данные переписи. Это сложно, поскольку данных слишком много, и они распределены по нескольким таблицам. Проведя небольшое исследование данных, я составил 3 таблицы, каждая из которых соответствует данным о жилищном строительстве, доходе и возрасте из оценки 2017 года. Я удалил ненужные столбцы и переименовал их в более удобочитаемый формат.

Объединение этих данных было выполнено по столбцам с почтовым индексом.

После слияния K-means использовался для кластеризации данных вместе. Некоторые почтовые индексы, не содержащие необходимых данных, были удалены из набора данных.

k -means clustering - это метод векторного квантования, исходящий из обработки сигналов, который популярен для кластерного анализа при интеллектуальном анализе данных. k -средний кластеризация направлена на разделение n наблюдений на k кластеров, в которых каждое наблюдение принадлежит кластеру с ближайшим средним значением, служащим прототипом. кластера.

После первого набора кластеров оба местоположения попали в разные кластеры. Я использовал кластеризацию локтей K-средних, чтобы убедиться, что текущие школы находятся в одном кластере.

Как только это было сделано, чтобы посмотреть на области с наименьшей конкуренцией, я использовал отношение количества детей до 5 лет к количеству дошкольных учреждений, чтобы выбрать лучший почтовый индекс, чтобы открыть новый Монтессори в интересующей области.

Результаты и обсуждение

Из 217 различных почтовых индексов, участвовавших в битве за эти районы, было сформировано 5 кластеров. Количество кластеров было выбрано произвольно.

Я проверил, что кластеры сформированы таким образом, что оба местоположения находятся в одном кластере.

Затем этот кластер был отсортирован по соотношению детей и дошкольников, и победителем стал почтовый индекс 75078 - близлежащий пригород Проспера.

Проспер имеет много общего как с Плано, так и с Фриско, о которых я знаю по анекдотам, и теперь это подтверждается этим упражнением.

Фриско и Проспер - новые и предстоящие локации
Все 3 города с высоким уровнем доходов в основном сформированы экспатами из других штатов.
Фриско и Плано являются домом для некоторых новых компаний по трансплантации со всех концов США, в то время как Фриско и Проспер также служат спящими городами для рабочего класса.

Ниже выделены существующие местоположения внизу и предлагаемое вверху.

Вывод

K-means предлагает способ найти похожие данные на основе их характеристик. В этом эксперименте такая кластеризация помогла выявить целую кучу почтовых индексов, похожих на текущие местоположения школ.

Хотя это дает хорошее направление к тому месту, где лучше всего открывать школу, есть некоторые предостережения:

Рассмотренные данные взяты из моего ограниченного исследования и никоим образом не являются исчерпывающими. Этот метод действительно обеспечивает основу для добавления дополнительных функций.
Данные Foursquare не являются исчерпывающими и хранятся в режиме реального времени. В то время как направленная коррекция наземных условий в особенно быстрорастущих пригородах на севере Техаса может быть другим, потребуется ручная проверка или другие источники данных для подтверждения.
Этот анализ не принимает во внимание другую логистику открытия школы, такую как разрешения, поиск местоположения и т. Д.

Независимо от того, откроется ли там школа на самом деле или нет, потребуется дополнительная работа и исследования, но этот анализ действительно дает начало.

Вот ссылка на мою записную книжку, в которой подробно описан приведенный выше анализ:

Спасибо за чтение и оставьте отзыв!

Использование науки о данных для начала исследования рынка - обучение без учителя и кластеризация

Требования к данным

Методология

Результаты и обсуждение

Вывод

Вопросы по теме