Этот блог представляет собой обзор моего завершающего проекта сертификации специалистов по данным Cousera IBM.

Отказ от ответственности:

Этот проект был выполнен в разгар пандемии, поэтому некоторые данные могут быть немного устаревшими, и, возможно, это не лучшее время для начала бизнеса. Как говорится, вот отчет

Оглавление

Введение:

  • Бизнес-проблема
  • Данные
  • Методология
  • Анализ
  • Результаты и обсуждение
  • Вывод

Введение

В этом проекте мы будем исследовать данные из города Нью-Йорк. Нью-Йорк не нуждается в представлении, это один из самых густонаселенных городов США с населением 8,39 миллиона человек в 2020 году. Это центр разнообразных культур, объединяющий все грани земного шара. Нью-Йорк является крупным промышленным центром и финансовой столицей мир. В городе 5 районов, и при такой большой географической площади конкуренция между компаниями огромная. Таким образом, очень сложно определить наиболее идеальные места для открытия нового бизнеса и максимизации прибыли. В этом проекте я сосредоточусь на открытии китайского ресторана, так как это одна из самых популярных кухонь в Америке согласно анализу, проведенному Chef Penen с использованием данных поиска Google.

Бизнес-проблема:

Где лучше всего открыть ресторан китайской кухни в Нью-Йорке, чтобы максимально увеличить количество клиентов и прибыль? Цель состоит в том, чтобы определить лучшее место для открытия нового ресторана китайской кухни в городе, которое будет наиболее подходящим с учетом конкурентов и жителей разных районов города.

Целевая аудитория этого проекта и некоторые демографические данные

Этот проект особенно полезен для девелоперов и инвесторов, желающих открыть или инвестировать в китайский ресторан в Нью-Йорке. В целом, Нью-Йорк — отличное место для открытия ресторана национальной кухни. Ведь Нью-Йорк — самый разнообразный город в мире (в Нью-Йорке говорят на 800 языках). С его разнообразной культурой приходит разнообразие в продуктах питания. В Нью-Йорке много ресторанов, каждый из которых относится к разным категориям, таким как китайский, индийский, французский и т. д. Почему я решил сосредоточиться на китайской кухне в нашем проекте? Популярность китайской кухни выросла, потому что она предлагает более дешевую и легкодоступную альтернативу домашней еде и, возможно, более здоровую альтернативу фаст-фуду.

Данные:

Мы использовали данные с https://geo.nyu.edu/catalog/nyu_2451_34572 для разбивки всех районов Нью-Йорка. Набор данных включает 5 районов, 306 районов и их координаты широты и долготы. Мы также использовали вызовы API Foursquare для получения информации о ресторанах в каждом районе. В этих звонках были названия заведений, рейтинги и район расположения ресторана.

Методология

Главный девиз этого проекта — найти лучшее место для открытия нового ресторана в Нью-Йорке; на основе конкуренции в различных местностях и их населения.

Итак, для этого я использовал два разных набора данных, доступных, как упоминалось выше. Эти два набора данных содержат информацию о местонахождении Нью-Йорка, различных возрастных группах людей и населении.

Чтобы решить эту проблему, я собираюсь использовать «алгоритм кластеризации K-средних». Кластеризация K-средних — это тип обучения без учителя, который используется, когда у вас есть немаркированные данные (т. е. данные без определенных категорий или групп). Цель этого алгоритма — найти группы в данных, при этом количество групп представлено переменной K. Алгоритм работает итеративно, чтобы присвоить каждую точку данных одной из K групп на основе предоставленных функций. Точки данных группируются на основе сходства признаков. Результаты алгоритма кластеризации K-средних:

  • Центроиды кластеров K, которые можно использовать для обозначения новых меток данных для обучающих данных (каждая точка данных назначается одному кластеру). Я буду использовать разные карты, чтобы дать более четкое представление целевой аудитории.

Действия, которые я предпринял для анализа:

  • Собраны необходимые данные: местоположение и тип (категория) каждого ресторана в пределах нашей широты и долготы. У нас также есть особый тип местности ресторанов.
  • Изучили «плотность ресторанов» в разных районах Нью-Йорка — мы будем использовать K-средства, чтобы определить несколько перспективных районов недалеко от центра с небольшим количеством ресторанов и их типом.
  • Изучены наиболее перспективные области и внутри них созданы кластеры локаций, отвечающие некоторым базовым требованиям, установленным в ходе обсуждения с заинтересованными сторонами. Мы будем учитывать места с меньшим количеством ресторанов в радиусе 500 метров. Мы также представим карту всех таких местоположений, а также создадим кластеры (используя кластеризацию K-средних) этих местоположений для изучения окрестностей.

Анализ:

Идентификация данных, сбор и очистка

Найдите и определите соответствующий источник данных и зафиксируйте его. Здесь мы используем Википедию, чтобы получить данные о Нью-Йорке. Затем удаляем все лишние значения (Очистка данных). Затем мы объединяем районы, подобные Бронксу. Теперь данные очищены и готовы к использованию.

Объединение различных источников данных и сортировка окрестностей на основе долготы и широты

Теперь мы объединим наборы данных о районе с почтовым адресом вместе с набором данных с широтой и долготой и сохраним их в отдельных фреймах данных. Результирующий фрейм данных будет содержать подробную информацию о почтовых индексах, районах, районах, широте и долготе. Наконец, мы визуализируем его, используя карту фолиума.

Исследуйте районы Нью-Йорка

Во-первых, мы изучили все районы города Нью-Йорка, используя данные широты и долготы, используя API Foresquare, чтобы получить рестораны, доступные в Нью-Йорке. Затем мы изучили уникальные категории в районах, отфильтровав сведения о месте проведения для всех возможных «китайских ресторанов». Затем мы нашли каждый район вместе с самыми популярными местами. Наконец, мы определили 10 лучших мест для каждого района.

Кластеризация

При допущении о 5 кластерах используйте алгоритм K-кластера, чтобы получить 5 различных кластеров в Нью-Йорке с аналогичным набором мест. Изучите каждый кластер и определите отличительные категории мест, которые отличают каждый кластер. Определите кластеры и районы / районы с максимальным количеством ресторанов и их типами.

Результаты и обсуждение

Прежде всего, мы хотим увидеть разбивку районов в каждом районе. Глядя на график ниже, мы видим, что в Квинсе больше всего районов, за ним следует Бруклин, а затем Манхэттен. Причина, по которой мы хотели изучить это, заключается в том, что мы хотели увидеть разбивку на количество районов в каждом районе и сравнить это с тем, сколько китайских ресторанов уже было в этом районе. Таким образом, мы можем минимизировать конкуренцию и иметь лучшее представление о том, где нам действительно следует открыть ресторан.

Мы визуально видим, что наибольшее количество китайских ресторанов находится в Квинсе, затем следует Манхэттен, а затем Бруклин.

  • Мы видим, что в Квинсе больше всего районов.

  • В Квинсе также самое большое количество ресторанов китайской кухни.

  • В китайском квартале Манхэттена больше всего ресторанов китайской кухни.

Основываясь на результатах нашего анализа, я бы сказал, что Манхэттен и Бруклин — лучшие места для китайской кухни в Нью-Йорке. Чтобы добиться успеха, я бы открыл китайский ресторан в Бруклине. В Бруклине есть несколько районов со средним рейтингом, превышающим 8,0 по шкале от 1,0 до 10,0, и меньше китайских ресторанов, чем на Манхэттене, что облегчает конкуренцию. Кроме того, следует иметь в виду, что цены на недвижимость в Бруклине значительно ниже, чем на Манхэттене. В частности, я бы рекомендовал рассмотреть возможность открытия китайского ресторана либо в Коббл-Хилл, либо в Норт-Сайде, потому что оба этих района имеют самый высокий рейтинг китайских ресторанов.

Ограничения и предложения для будущих исследований

Весь приведенный выше анализ зависит от точности данных Four Square. Кроме того, во время этого проекта мы использовали бесплатную учетную запись уровня песочницы Foursquare API, которая имеет ограничения в отношении количества вызовов API и возвращаемых результатов. Чтобы получить лучшие результаты, будущая исследовательская работа и более полный анализ могут рассмотреть возможность использования платной учетной записи для обхода этих ограничений, а также включения данных из других внешних баз данных.

Выводы

В проекте мы прошли через процесс выявления бизнес-проблемы, указания необходимых данных, извлечения и подготовки данных, проведения анализа данных и, наконец, предоставления рекомендаций инвесторам/разработчикам. В ходе проекта мы применяли различные методы и инструменты обработки данных, чтобы получить ответ на наш главный вопрос: «Где в городе Нью-Йорк инвестору открыть китайский ресторан?» Результаты этого проекта помогут соответствующему инвестору лучше понять преимущества и недостатки различных районов Нью-Йорка с точки зрения открытия китайского ресторана.