Введение/деловая проблема

Цель этого проекта — определить, в каких районах Торонто есть доступ к фитнес-центру на открытом воздухе, чтобы компании, предлагающие товары для здоровья и фитнеса, могли отправлять рекламу по почте сообществам, которые с большей вероятностью купят их продукты. Это будет полезно для тренажерных залов и фитнес-тренеров, ресторанов здорового питания и производителей здоровых напитков, которые хотят сузить круг своих интересов на рынке.

Данные

Мы будем использовать данные Foursquare. Этот набор данных будет использоваться для определения того, какие заведения, ориентированные на фитнес/здоровье, расположены рядом с определенными районами Торонто. Набор данных Торонто был взят со страницы Википедии https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M. Эти данные будут очищены, чтобы удалить все записи, в которых район Не назначен, и все районы будут объединены, если почтовые индексы совпадают.

Пример того, как будут выглядеть эти данные

Данные также будут получены из API Foursquare. Ниже приведен пример того, как может выглядеть этот код.

{'meta': {'code': 200, 'requestId': '5fd2e3ca0c79573f8692c802'},
 'response': {'categories': [{'id': '4d4b7104d754a06370d81259',
    'name': 'Arts & Entertainment',
    'pluralName': 'Arts & Entertainment',
    'shortName': 'Arts & Entertainment',
    'icon': {'prefix': 'https://ss3.4sqi.net/img/categories_v2/arts_entertainment/default_',
     'suffix': '.png'},
    'categories': [{'id': '56aa371be4b08b9a8d5734db',
      'name': 'Amphitheater',
      'pluralName': 'Amphitheaters',
      'shortName': 'Amphitheater',
      'icon': {'prefix': 'https://ss3.4sqi.net/img/categories_v2/arts_entertainment/default_',
       'suffix': '.png'},
      'categories': []},
     {'id': '4fceea171983d5d06c3e9823',
      'name': 'Aquarium',
      'pluralName': 'Aquariums',
      'shortName': 'Aquarium',
      'icon': {'prefix': 'https://ss3.4sqi.net/img/categories_v2/arts_entertainment/aquarium_',
       'suffix': '.png'},
      'categories': []},
     {'id': '4bf58dd8d48988d1e1931735',
      'name': 'Arcade',
      'pluralName': 'Arcades',
      'shortName': 'Arcade',
      'icon': {'prefix': 
......

Методология

Полученные данные содержат все почтовые индексы из Торонто, начинающиеся с буквы М, которые были очищены, чтобы не отображались неназначенные почтовые индексы. Этот набор данных был извлечен из Википедии путем простого чтения HTML-таблицы с помощью библиотеки Pandas.

Затем эти данные использовались для извлечения данных о месте проведения из __Foursquare__ путем объединения этих данных с общедоступными данными о местоположении, предоставленными командой Coursera Labs. Это было сделано, чтобы обойти ошибку с получением данных о местоположении. Места, полученные из Foursquare, находятся в радиусе 600 метров от географической точки и фильтруются, чтобы возвращать только места, которые являются подкатегориями типа «Категория на открытом воздухе и отдых».

Эти данные будут сгруппированы с использованием алгоритма __k-means clustering__, чтобы мы могли видеть сегменты почтовых индексов/районов, которые относятся к фитнесу, и группировать их по типу фитнес-центров, которые их окружают.

Анализ

Используя кластеризацию k-средних, мы создаем лучший кластер с k-средним, равным 10, и в итоге получаем кластер, который выглядит так:

Была проверена главная площадка каждого кластера, чтобы получить лучшие метки, чем числовые, которые назначаются по умолчанию.

Cluster  0
1st Most Common Venue
Fountain           4
Plaza              3
Beach              1
Harbor / Marina    1
Park               1
Name: Postal Code, dtype: int64
==============================
Cluster  1
1st Most Common Venue
Park    26
Name: Postal Code, dtype: int64
==============================
Cluster  2
1st Most Common Venue
Athletics & Sports    3
Name: Postal Code, dtype: int64
==============================
Cluster  3
1st Most Common Venue
Playground    2
Garden        1
Name: Postal Code, dtype: int64
==============================
Cluster  4
1st Most Common Venue
Trail    3
Name: Postal Code, dtype: int64
==============================
Cluster  5
1st Most Common Venue
Dog Run    3
Name: Postal Code, dtype: int64
==============================
Cluster  6
1st Most Common Venue
River    1
Name: Postal Code, dtype: int64
==============================
Cluster  7
1st Most Common Venue
Park                  6
Athletics & Sports    1
Name: Postal Code, dtype: int64
==============================
Cluster  8
1st Most Common Venue
Plaza    2
Name: Postal Code, dtype: int64
==============================
Cluster  9
1st Most Common Venue
Athletics & Sports      1
Other Great Outdoors    1
Trail                   1
Name: Postal Code, dtype: int64
==============================

Затем были обновлены этикетки.

Обсуждение и результаты

Похоже, что в центре города многие места, которые находятся на открытом воздухе, в основном предназначены только для торгового района, поэтому можно избежать большинства людей, живущих в этих районах. Второй по величине кластер — пурпурный, состоящий в основном из парков. Похоже, что доступ к паркам — это то, к чему имеет доступ и большинство людей, поэтому было бы хорошо не только продвигать эту группу, но и продавать и рекламировать в самом парке, поскольку именно там находится самая большая группа людей, которые могут больше заниматься спортом и фитнесом. .

Большинство других групп довольно разбросаны и немногочисленны, но это должно позволить маркетологам лучше нацеливаться на эти районы и отправлять правильные рекламные письма нужным потенциальным клиентам.

Было исключено множество почтовых индексов, поэтому во многих районах нет доступа к каким-либо фитнес-центрам. Это позволяет маркетологам лучше ориентироваться на почтовые индексы и районы, которые даже могут быть заинтересованы в фитнесе на открытом воздухе. Лучше всего продавать и ориентировать продукты на людей, которые ходят в парки или берут своих детей или собак в парки для отдыха и занятий спортом. Также кажется, что в большинстве районов нет большого доступа к водным видам спорта на открытом воздухе, поэтому вместо этого лучше придерживаться маркетинга на суше.

Вывод

Этот проект призван правильно маркировать сообщества, у которых есть доступ к фитнес-центрам, поскольку они, скорее всего, будут товарами для фитнеса и здоровья. Кластер из 10 частей проделал хорошую работу по сегментации этого рынка, а в результате очистки удалось определить, какие сообщества даже имеют доступ к площадкам для занятий спортом на открытом воздухе. Эти данные будут иметь большое значение для маркетологов товаров для фитнеса и здоровья, чтобы они могли правильно направлять средства на правильные рынки.

Блокнот со всем кодом и полным анализом можно найти здесь: https://github.com/nsburrows/Coursera_Capstone/blob/main/DataCapstoneFinal.ipynb