Иммигрировать в новую страну в качестве иностранца непросто, особенно когда думаешь об открытии нового бизнеса. Количество французских ресторанов в Чикаго, на первый взгляд, относительно невелико. Но даже если Чикаго может показаться хорошим выбором, будущий владелец бизнеса совершенно не знает Чикаго. Целью данного исследования является поиск наиболее подходящего района для открытия французского ресторана на основе нескольких критериев.

Цели

Целью исследования будет определить, какие районы Чикаго подходят для открытия французского ресторана, ориентированного на средний/высший класс. Район должен соответствовать следующим критериям:

  • Доступная аренда
  • Мало конкурентов
  • Безопасно
  • Средний уровень, но богатый район

Получение данных

Общественные районы Чикаго

Районы сообщества (CA) и названия Чикаго будут напрямую удалены со страницы Википедии https://en.wikipedia.org/wiki/Community_areas_in_Chicago
Другая полезная информация, такая как население и площадь, будет использована позже. для создания элементов на основе плотности.

Корпус

Веб-сайт Chicago.gov использовался для того, чтобы узнать о доступности каждого района. Индекс под названием NOAH, представленный в таблице, особенно интересен для наших нужд, поскольку он показывает Естественно встречающееся доступное жилье в процентах.
https://www.chicago.gov/content/dam/city/depts/ dcd/general/CITY_OF_CHICAGO_AFFORDABLE_HOUSING_DATA_TABLE.xlsx

Конкуренты

Чтобы получить представление об уровне конкуренции (или количестве похожих ресторанов), будет использоваться «поисковой» запрос Foursquare API. Количество французских ресторанов в каждом районе будет рассчитано путем суммирования их количества в каждом ЦА в радиусе 3000 м.

Безопасность

Сайт cityofchicago.org использовался для расчета уровня безопасности каждого района. В нашем случае использовались только годовые отчеты за 2018 год, поскольку данные были свежими и полными.
https://data.cityofchicago.org/Public-Safety/Crimes-2018/

Богатство

Веб-сайт cityofchicago.org использовался для получения дохода на душу населения для каждого района. Данные могут быть немного старыми (2008–2012 гг.), но все же достаточно хорошими, чтобы иметь представление о богатстве каждого района.

Методология

После импорта и очистки каждой функции CA мы объединяем таблицы функций в одну. Новая функция под названием «Коэффициент преступности (/p)» была создана для расчета плотности преступности в каждой области.

Широта и долгота будут получены благодаря библиотеке «Geopy».

Вот информативная карта, показывающая уровень преступности (или количество преступлений на одного жителя) для каждого района Чикаго.

Количество французских ресторанов в радиусе 3 км от каждой ЦА рассчитывается на основе количества заведений, возвращаемых поисковым запросом Foursquare. Затем это число будет разделено на население ЦА и умножено на 1000, чтобы получить плотность французских заведений на 1000 жителей.

Наконец, мы нарежем таблицу, чтобы получить необходимые входные данные для нашего алгоритма ML.

Учитывая, что каждая функция имеет другой масштаб, мы сначала нормализуем функции, прежде чем использовать алгоритм кластеризации. В этом случае будет использоваться алгоритм K-средних.
График инерции K-средних показывает нам, благодаря методу локтя, что оптимальное количество кластеров составляет около 4 или 5 кластеров. После анализа обоих случаев будет выбрано 5 кластеров.

Результаты

Пять кластеров представлены ниже на обеих картах. Можно отметить, что кластеризация также носит географический характер; большинство ЦС расположены в более крупном кластере одной и той же метки. Интересен и тот факт, что в центре Чикаго, Петле, есть свой кластер. Эти предыдущие наблюдения можно считать значимыми, и они убеждают нас в уместности кластеризации.

Среднее значение нормализованных признаков было нанесено на график для каждого CA. Это помогает нам охарактеризовать каждый кластер следующим образом:

- Кластер 0:
Очень безопасные центры сертификации среднего класса с низкой конкуренцией и доступными домами.

- Кластер 1:
ДО более низкого класса, довольно небезопасные, но с небольшой конкуренцией и доступным жильем.

- Кластер 2
Безопасные ЦС высшего класса с более высокой конкуренцией и меньшим количеством доступных мест

- Кластер 3
Центральный деловой район Чикаго, очень высокие доходы, но небезопасно, недоступно и с высокой конкуренцией

- Кластер 4
Безопасные ДО низшего класса с низкой конкуренцией и доступным жильем

Кластер 0 кажется хорошим кандидатом на безопасные и доступные районы среднего класса, которые мы ищем. Мы будем далее анализировать этот кластер таким же образом, чтобы узнать, какой CA может быть идеальным кандидатом для открытия французского ресторана.
На следующем рисунке снова показано нормализованное медианное значение каждой функции, на этот раз сравнивая CA целевого кластера. После анализа кажется, что Беверли или Форест-Глен могли бы быть идеальными местами для открытия бизнеса.

Мы создадим наш собственный рейтинг ЦС кластера 0, сложив вместе все нормализованные признаки, а затем нанесем их на картограмму. Другим кластерам будет присвоена оценка 0, поскольку они не имеют функций, на которые ориентируется бизнес (безопасный и доступный ЦС среднего класса).

Обсуждение

Результаты процесса кластеризации показали некоторые значимые результаты. На данный момент кластеризация основана на четырех функциях, но в будущем она может быть расширена и на другие функции, такие как средний рейтинг ближайших ресторанов или ценовая категория. Однако мы также можем заметить, что в кластерах есть некоторые выбросы (например, О'Хара и Окленд в целевом кластере), что означает, что процесс кластеризации можно улучшить.

Вывод

Наконец, наш кластерный анализ показал, что Беверли и Форест-Глен являются очень подходящими общественными районами для открытия французского ресторана. Они оба очень безопасные и доступные ЦС среднего класса с низкой конкуренцией и доходами выше среднего. Процесс кластеризации может дать ответ на наш первоначальный вопрос, введя только четыре функции, легко доступные в Интернете и в API Foursquare.
Следующим шагом может стать уточнение нашего анализа путем дальнейшего изучения выбранных ЦС с другими характеристиками, такими как средний рейтинг и ценовая категория ресторанов.