В этой статье описывается мой последний проект в рамках программы «IBM Data Science Professional Certificate».
В этом проекте мы должны определить проблему, а затем использовать данные о местоположении от Foursquare и методы обработки данных для решения этой проблемы.

Вариант использования, который я выбрал, — проанализировать коммуны в Большом Париже, чтобы помочь семьям, которые хотят там поселиться.

Эта статья будет содержать следующие шаги:

  1. Постановка задачи.
  2. Описание данных.
  3. Методология.
  4. Результаты.
  5. Обсуждение.
  6. Вывод.

Постановка задачи:

Париж «Город Света» — столица и самый густонаселенный город Франции.

Париж известен своей магией, очарованием и красотой. Это дом для разных культур и разных людей.

В городе также есть одна из лучших возможностей для трудоустройства в Европе. Это делает его таким привлекательным для людей, ищущих возможности трудоустройства и культурной жизни.

По оценкам, его население в 2020 году составляет 2 150 271 человек на площади 105 квадратных километров (41 квадратная миля), которая считается очень густонаселенной.

Город Париж является центром и резиденцией правительства Иль-де-Франс, с предполагаемым официальным населением на 2020 год в 12 278 210 человек, или около 18 процентов населения Франции.

Хотя район Парижа и его окрестности является одним из самых дорогих регионов в мире, отдельные лица и особенно семьи стремятся купить дом, который, с одной стороны, должен соответствовать их бюджету, а с другой — соответствовать современным требованиям жизни.

Этот проект будет изучать рынок жилья в «мегаполисе Большого Парижа», который обозначен на карте красным цветом. Он включает в себя главный город Париж и некоторые близлежащие районы.

Используя доступные в Интернете данные, предоставленные французским правительством, и применяя принципы науки о данных, этот проект проанализирует мегаполис Большого Парижа и классифицирует его районы и регионы в соответствии со стоимостью жилья и качеством жизни, включая основные условия жизни.

Этот проект направлен на то, чтобы помочь отдельным лицам и особенно семьям найти баланс между ценами на жилье и товарами для жизни.

Заинтересованная аудитория:

Это исследование может помочь семьям, которые хотят купить дом, или инвесторам, ищущим выгодные предложения.

Описание данных:

Для достижения нашей цели мы будем использовать Foursquare для получения геолокационных данных Парижа и его окрестностей. Мы также будем использовать веб-сайт https://www.data.gouv.fr/, который содержит набор данных, необходимый нам для:

  1. Получите список коммун Иль-де-Франс и их GPS-координаты (https://www.data.gouv.fr/fr/datasets/repertoire-geographique-des-communes-d-ile-de-france- ИДФ/).
  2. Получить цены на жилье за ​​м2 (https://www.data.gouv.fr/fr/datasets/prix-moyen-au-m2-des-ventes-de-maisons-et-dappartements-par-commune-en-2019 /).

Другие источники данных также необходимы для:

Методология:

Для достижения нашей цели мы собираемся выполнить следующие шаги:

  1. Получите список коммун мегаполиса Большого Парижа.
  2. Получите GPS-координаты мегаполиса Большого Парижа.
  3. Визуализируйте географические детали мегаполиса Большого Парижа.
  4. Получить список площадок (сооружений) для каждой коммуны.
  5. Сегментируйте коммуны на кластеры в зависимости от мест проведения.
  6. Получите средние цены на дома.

Затем мы можем дать некоторые рекомендации, основанные на кластерах и средних ценах на жилье.

1. Коммуны Большого Парижа:

Первый шаг — получить список коммун Большого Парижа.

Этот список доступен на веб-сайте: https://www.insee.fr/fr/metadonnees/cog/epci/EPCI200054781-metropole-du-grand-paris.

Как мы можем заметить, данные представлены в виде списка, поэтому нам нужно сделать некоторые манипуляции, чтобы поместить их в таблицу с двумя столбцами:

  • Столбец 1: commune_name.
  • Столбец 2: почтовый_код.

2.GPS-координаты Большого Парижа.

Второй шаг — получить GPS-координаты каждой коммуны Большого Парижа, чтобы показать их позже на карте.

Сначала извлекаем координаты коммун всего Иль-де-Франс. Эти координаты можно найти на веб-сайте https://www.data.gouv.fr/fr в виде таблицы Excel по следующей ссылке: https://www.data.gouv.fr/fr/datasets/ р/д824ббб3-37д6-4б47-бд69-д7851бадб347.

Из предыдущей ссылки мы извлекаем 4 следующих столбца, которые нам понадобятся для следующего шага:

  • отд: номер отдела.
  • com: Номер коммуны.
  • nom: Название коммуны.
  • wgs84: GPS-координаты коммуны: (широта, долгота).

Мы получаем эту таблицу, которая содержит GPS-координаты коммун Большого Парижа и других коммун «Иль-де-Франс».

Как мы можем видеть:

  1. Таблица не содержит почтовый индекс, а содержит два идентификатора dep и com для каждой коммуны.
  2. Столбец wgs84 содержит как широту, так и долготу, разделенные запятой.
  3. В таблице представлены все коммуны «Иль-де-Франс».

Итак, нам нужно:

  1. Создайте новый столбец postal_code из двух идентификаторов dep и com.
  2. Разделите столбец wgs84 на 2 столбца: широта и долгота.
  3. Отфильтруйте таблицу, чтобы оставить только коммуны Большого Парижа.

В результате получаем следующую таблицу, в которой указаны все GPS-координаты и почтовые индексы всех коммун Большого Парижа.

3. Визуализация географических деталей:

Третий шаг — визуализировать наши окончательные данные и посмотреть, где расположены все эти коммуны.

Мы используем библиотеку Folium для визуализации географических деталей Парижа и его районов. Каждый синий маркер представляет собой коммуну Парижа и его ближайших районов.

Наша цель состоит в том, чтобы разделить эти коммуны на кластеры на основе мест проведения, которые мы объясним в следующих шагах.

4. Список площадок:

Теперь нам нужно определить основные места для каждой коммуны.

Для семьи незаменимыми местами являются:

Транспорт:

  • Станция метро.
  • Трамвайная станция.
  • Остановка.
  • Железнодорожная станция.

Образование:

  • Медицинское училище.
  • Начальная школа.
  • Средняя школа.
  • Средняя школа.

Здоровье:

  • Больница.
  • Аптека.

Еда:

  • Пекарня.
  • Супермаркет.

на открытом воздухе:

  • Парк.

Используя API сервиса социальной локации Foursquare, мы собираемся получить список основных мест для каждой коммуны.

Для каждой коммуны мы получим не более 100 мест в радиусе 2000 метров от их данных широты и долготы.

Это список мест, предоставленных Foursquare для каждой коммуны:

Получим категории возвращенных площадок.

Мы видим, что даже если бы мы хотели получить приведенный выше список категорий, Foursquare вернул бы больший список категорий. Итак, мы применяем фильтр, чтобы получить только те категории, которые мы хотели получить.

5. Кластеры:

а- Подготовка данных:

Теперь нам нужно подготовить данные для сегментации коммун на кластеры. Сначала преобразуем таблицу в таблицу категорий заведений. Затем мы подсчитываем количество мест по каждой категории для каждой коммуны и сортируем их.

Наконец-то мы можем добавить в таблицу названия коммун и GPS-координаты.

Теперь у нас есть таблица с названиями коммун, почтовыми индексами, GPS-координатами и количеством мест для каждой категории.

Эта таблица дает нам представление о категориях мест проведения в каждой коммуне и позже будет служить для отображения кластеров.

б- Машинное обучение:

Поскольку у нас есть неразмеченные данные (таблица выше), которые мы хотим сегментировать на кластеры, лучшим алгоритмом машинного обучения, который соответствует нашим потребностям, является алгоритм K-средних.

Чтобы определить количество этих кластеров (K), нам нужна таблица только с количеством мест для каждой категории.

Затем найдите оптимальное значение K, применив метод локтя к приведенной выше таблице.

Оптимальное K, возвращаемое последним методом, равно 5.

Теперь давайте применим алгоритм K-средних к таблице категорий.

Алгоритм K-средних вернул метку для каждой коммуны. Эти метки представляют собой метки кластеров.

Итак, мы связываем метки, возвращаемые алгоритмом K-Means, со всеми коммунами:

Наконец, поскольку у нас есть метка кластера для каждой коммуны, мы можем показать 5 кластеров на карте, используя библиотеку folium.

6. Средние цены на жилье:

Мы должны помнить, что наша цель – найти хороший баланс между хорошим местом для жизни и средними ценами на жилье.

Средние цены можно посмотреть на сайте data.gouv.fr.

Возвращаемый список содержит средние цены на жилье во всех коммунах «Иль-де-Франс». Итак, нам нужно применить фильтр, чтобы получить только коммуны Большого Парижа.

Чтобы получить более полное представление о средних ценах на жилье в Большом Париже, покажем гистограмму цен.

А затем определите 6 интервалов одинаковой ширины, чтобы увидеть распределение средних цен на жилье.

Это категории средних цен на жилье:

Здесь мы видим, что 60% средних цен на жилье ниже 5450 евро.

Теперь давайте покажем эти категории на карте.

Файл JSON, который возвращает границы каждой коммуны, можно найти на веб-сайте france-geojson.gregoiredavid.fr. Нам просто нужно применить фильтр, чтобы получить только коммуны Большого Парижа.

Затем, чтобы отобразить на карте средние ценовые категории жилья, нам необходимо создать картограмму.

Здесь мы видим, что самые дорогие коммуны находятся ближе всего к центру Парижа.

Результаты:

Теперь давайте добавим кластеры на карту выше, чтобы определить, в каких коммунах лучше всего покупать дом, принимая во внимание как основные места для семьи, так и средние цены на жилье.

Ниже приведен список коммун в каждом кластере:

  • Кластер 0: фиолетовый.
  • Кластер 1: Красный.
  • Кластер 2: Синий.
  • Кластер 3: зеленый.
  • Кластер 4: желтый.

Обсуждение:

Теперь, после показа Карты Большого Парижа со средними ценами на жилье, мы можем помочь семьям выбрать коммуну, где купить дом с учетом их бюджета.

Идея состоит в том, чтобы выбрать коммуну с наиболее важными объектами и минимизировать средние цены на жилье.

Кластер 1 (красный) и кластер 3 (зеленый) — это кластеры с наибольшим количеством важных мест.

Интересное наблюдение: средние цены на жилье в кластере 1 (красный) варьируются от среднего уровня 1 до очень высокого.

Такие коммуны, как Аньер-сюр-Сен, Сюрен, Курбевуа и Клиши (Средний 1) из кластера 1 (красный), имеют те же основные объекты, что и коммуны, такие как Париж 1-й округ (Очень высокий) и Левалуа-Перре (Высокий), а средние цены на жилье ниже.

Так вот, в этих коммунах может быть интересно купить дом.

Средние цены на жилье кластера 3 (зеленый) варьируются от Низкого уровня 2 до Высокого.

Такие коммуны, как Gentilly, Vanves (Medium 1) и Bagnolet (Low 2), предлагают хороший баланс между средними ценами на жилье и необходимыми местами.

Кластер 0 (фиолетовый) и кластер 2 (синий) — это кластеры с наименьшим количеством важных мест. Их средние цены на жилье варьируются от Низкой 1 до Средней 2.

Коммуны из кластера 2 (синие), такие как Бонди, Тиаи и Рони-Су-Буа (Низкий 1), имеют больше важных мест и почти такие же средние цены на жилье, чем большинство коммун кластера 0 (фиолетовый), который содержит наименее важные места в Большом Париж.

Средние цены на жилье в коммунах кластера 4 (желтый) варьируются от Низкого уровня 1 до Среднего уровня 2.

В таких коммунах, как Дранси и Бобиньи, средние цены на жилье являются доступными и предлагают множество необходимых мест.

Вот код https://nbviewer.jupyter.org/github/abenmoussa/Final_CapstoneProject/blob/master/FinalProject.ipynb

Вывод:

Когда семья хочет поселиться в Париже, она должна учитывать множество факторов. В своем исследовании я взял основные места и цены в качестве критериев для выбора лучших коммун для проживания.

Я использовал Foursquare, чтобы получить основные места расположения коммун, и выбрал метод машинного обучения, алгоритм кластеризации K-Means, чтобы разделить районы на 5 групп.

Мы обнаружили, что в похожих коммунах могут быть разные средние цены на жилье. Это означает, что некоторые коммуны с низкими средними ценами на жилье могут иметь те же характеристики, что и другие коммуны с очень высокими средними ценами на жилье, что интересно знать.

Чтобы сделать этот проект более надежным, мы также можем присвоить вес каждой категории площадки. Может быть, например, категория станций метро более важна, чем категория автобусных остановок, поэтому мы присваиваем ей больший вес.