Понимание окружающей среды — Население Лондона, 2019 г.

9,176,530

Последняя официальная оценка населения Лондона исходит от Управления национальной статистики. По их данным, расчетное население Большого Лондона в 2016 году составляло 8 787 892 человека. Население метро в 2019 году оценивается в 9,18 миллиона человек.

Перепись населения в Соединенном Королевстве проводится каждые десять лет, последняя из которых была завершена в 2011 году, а это означает, что мы близки к следующему сбору демографических данных.

Население Лондона делает его самым большим городом в Соединенном Королевстве. Второй по величине город Великобритании — Бирмингем — имеет население 1,1 млн человек, что составляет 11,98% населения только столицы. Лондон также является крупнейшим городом в Европейском Союзе, в два раза больше Дублина и в три раза больше Рима.

Это третий по величине город в Европе после Стамбула (14,8 млн человек) и Москвы (10,3 млн человек), а также 27-й по численности населения мегаполис в мире.

Этническая принадлежность

Лондон как город значительно более разнообразен, чем остальная часть Соединенного Королевства. По данным переписи 2011 года, в Англии и Уэльсе 86% населения составляют белые, но в Лондоне это число падает до 59,79%. Белая доля населения Лондона увеличивается при поездках из центра города.

Важно понимать, как разнообразие этнической принадлежности населения меняет подход к анализу рынка жилья. У людей разные потребности и приоритеты, и когда приходит время арендовать квартиру, они, скорее всего, снимут квартиру в районе с наличием определенных мест в шаговой доступности.

Введение и презентация бизнес-задач

Я считаю, что есть 3 основные причины, по которым квартира не соответствует потребностям клиента:

  • Квартира выглядит старой и ветхой
  • В районе нет ожидаемых товаров поблизости
  • Цена слишком высока для данной квартиры или выходит за рамки бюджета

Моя цель в этом исследовании — систематически анализировать предложения, размещенные на RightMove.co.uk, чтобы составить карту лучших возможностей в городе. Если вы ищете новую квартиру и вам нравится ваш реальный район, этот проект может предоставить вам список всех лучших объектов недвижимости на рынке в соответствии с вашими предпочтениями.

Для этого проекта я собираюсь создать простое программное обеспечение, которое очищает RightMove, чтобы собирать обновленный список квартир, доступных для аренды, собирать и анализировать основные места рядом с каждым объектом, доступным для аренды, с помощью Foursquare и группировать их, чтобы разделить рынок жилья. на 20 групп по сходству мест проведения в радиусе 500 метров.

Методология

Начнем с процесса сбора данных.

Для этого я решил потратить время на разработку приложения для парсинга веб-страниц с помощью Beautiful Soup 4, но затем обнаружил на GitHub репозиторий, предложенный toby-p и доступный для скачивания, который обеспечивает простой способ соскребите правый ход!

Этот скрипт собирает следующую информацию:

  • цена
  • тип
  • адрес
  • URL-адрес
  • агент_url
  • почтовый индекс
  • номер_спальни
  • search_date

Набор данных будет выглядеть следующим образом:

Формат адреса такой: "Улица, Город, Почтовый индекс" и представляет собой неструктурированное поле, но для наших целей мы можем оставить его как есть. Вместо этого почтовый индекс имеет ограниченный формат, потому что у нас есть только первые две/три цифры. Этого недостаточно для сбора значимых данных о местах вокруг квартир.

Чтобы решить эту проблему, я собираюсь использовать OpenCage Geocoder API для поиска координат по почтовому адресу. Это тот случай, когда неструктурированное поле становится полезным.

Чтобы связать каждое предложение об аренде с районом, я собираюсь объединить таблицу данных со вторым набором данных, который имеет два столбца:

  • Название района
  • Почтовый индекс

Этот набор данных был создан путем очистки таблицы Википедии (доступной здесь) с данными, которые мне нужны для этого анализа.

Когда данные собираются и объединяются в единый фрейм данных, я группирую их с помощью алгоритма K-Means. Чтобы визуализировать географические детали и распределение предложений в Лондоне, я построил две значимые карты, используя библиотеку folium Python:

  • Карта кластеров: на этой карте показано распределение кластеров с использованием цветов для идентификации каждого кластера.
  • Карта отопления: на этой карте показаны области с большим количеством предложений.

Чтобы лучше понять рынок, важно построить гистограммы, чтобы легко определить среднюю цену на квартиру-студию, квартиру с 1 спальней, квартиру с 2 спальнями, квартиру с 3 спальнями и квартиру с 4 спальнями по районам.

Одна из целей состоит в том, чтобы количественно определить величину влияния местоположения (района) на среднюю цену каждой категории квартир и определить количество спален, которое сводит к минимуму географическое влияние на ежемесячную плату.

Наконец, я завершил проект, попросив пользователя ввести следующие данные:

  • Ваш адрес: этот ввод используется для анализа района, в котором вы живете, и для использования этой информации для поиска кластера, к которому вы принадлежите.
  • Количество спален, которые вы ищете: этот ввод используется для фильтрации результатов кластера, к которому вы принадлежите.
  • Максимальная ежемесячная плата (бюджет)

Результатом этого анализа является фрейм данных со списком отфильтрованных результатов на основе ваших предпочтений.

Результаты

Как и ожидалось, цена квартиры не может быть предсказана только по местам вокруг нее, но рынок можно эффективно фильтровать, чтобы помочь ищущему жилье найти лучшую доступную недвижимость. Тем не менее, можно разработать модель ценообразования на основе характеристик квартиры(количество спален, количество ванных комнат и т. д.), района, к которому принадлежит квартира, и наличия некоторых ключевые места рядом с квартирой. Примером ключевых факторов является наличие супермаркетов с высокой репутацией, остановок общественного транспорта, школ или университетов, больниц. Корреляция между ценой и этими категориями низка, но важна, если основываться на предпочтениях конечных пользователей.

Основная цель этого проекта — предоставить каждому инструмент для анализа рынка жилья и выявления лучших предложений, соответствующих его личным потребностям.

Исследование данных

Прежде всего, я выполняю исследование данных, визуализируя частотное распределение с помощью различных запросов, чтобы начать понимать рынок.

На следующей гистограмме показано количество предложений, перечисленных по количеству спален.

Как мы видим, наиболее частые предложения на рынке относятся к категории квартир с 2 спальнями, за которыми следует категория квартир с 1 спальней.

В каком районе Лондона больше всего предложений?

На следующей гистограмме показано распределение предложений по почтовым индексам.

Манипуляция данными

Чтобы облегчить чтение и интерпретацию результатов, я решил объединить каждый почтовый индекс с его относительным названием округа. Этот шаг имеет первостепенное значение, чтобы сделать результаты приятными для конечного пользователя.

Чтобы определить местоположение каждого района, я собираюсь определить широту и долготу центра каждого района с помощью OpenCageData.

Этот API позволяет искать и получать географическую информацию на основе широты и долготы или адреса. Я собираюсь использовать почтовый индекс каждого округа, чтобы расширить наш фрейм данных.

Наличие широты и долготы каждого района полезно для будущего и более глубокого анализа, такого как расстояние от центра города, которое является независимой переменной, которая может повлиять на цену квартиры.

Однако для целей этого проекта еще более важно расширить базу данных свойств, объединив каждую квартиру с ее географическими координатами.

Использование OpenCage для расширения записи каждой квартиры

Я следую тому же процессу, чтобы расширить географическую информацию относительно каждой квартиры. OpenCage Data позволяет собирать географические характеристики, используя адрес в качестве запроса.

Чтобы иметь точные данные для работы, лучше собрать следующие детали:

  • широта квартиры
  • долгота квартиры
  • округ
  • полный почтовый индекс
  • государственный округ
  • пригород

После этого важного шага набор данных выглядит следующим образом:

Чтобы быть уверенным, что каждый адрес был объединен с правильной серией новой информации, я использовал столбец «i» в качестве «флажка».

Это решение позволило мне дважды проверить, соответствует ли предыдущий индекс новому индексу, это означает, что я удалил записи, в которых отсутствуют ключевые данные.

Объяснение столбцов:

  • Название района
  • Широта и долгота: широта и долгота «названия района».
  • Address_y: копия исходного адреса, которую мы удалим. Я использовал его, чтобы убедиться, что DataFrames были правильно объединены.
  • Latitude_a и Longitude_a: широта и долгота квартиры.
  • округ
  • Postcode_complete: расширение исходного почтового индекса.
  • Штат_район
  • пригород

Foursquare API — Найдите самые популярные места рядом с каждой квартирой

Этот шаг имеет решающее значение для кластеризации рынка, обучающего модели K-средних.

Мы собираемся использовать API Foursquare для сбора первых 100 наиболее распространенных мест в радиусе 500 метров вокруг каждой квартиры, размещенной на Rightmove.

Адрес и места проведения

В следующей таблице показано количество мест, собранных для первых трех записей из набора данных:

В данном случае первые 3 записи не особо показательны для процесса, но, поверьте, рядом с каким-то адресом находится большее количество площадок.

Важно отметить, что сейчас мы работаем с категориальными переменными. Категориальная переменная — это переменная, которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, относя каждого индивидуума или другие единицы наблюдения к определенной группе или номинальной категории на основе некоторого качественного свойства.

В новом наборе данных есть запись для каждой категории объектов, связанных с каждой квартирой (это означает, что в каждой строке есть «1» только из 439 уникальных категорий объектов). По этой причине форма таблицы составляет 44 637 строк и 443 столбца.

Чтобы ускорить анализ, я рассмотрю только 20 наиболее распространенных мест, и они будут использованы для разработки кластерного анализа.

Наконец, я получаю набор данных, готовый к использованию в моих целях!

Кластеризация с использованием K-средних

Теперь у меня есть вся информация, необходимая для разделения рынка по географическому сходству. Пришло время разделить его на кластеры.

Я собираюсь использовать алгоритм К-средних.

Алгоритм K-средних — один из самых популярных алгоритмов машинного обучения без учителя. Обычно неконтролируемые алгоритмы делают выводы, используя немаркированный набор данных. Цель этого метода неконтролируемого машинного обучения — найти сходство в точке данных и сгруппировать похожие точки данных вместе. Алгоритм кластеризации K-средних направлен на разделение n наблюдений на k кластеров, в которых каждое наблюдение принадлежит кластеру с ближайшим средним значением, выступающим в качестве прототипа кластера.

Один из методов определения оптимального k известен как «метод локтя».

Метод «локоть» помогает специалистам по данным выбрать оптимальное количество кластеров, подбирая модель с диапазоном значений для K. Если линейный график напоминает руку, то «локоть» (точка перегиба на кривой) является хорошим признаком того, что базовая модель лучше всего подходит для этой точки.

К сожалению, локоть точно не ясен, и выбор большого значения для «k» был бы контрпродуктивным для цели проекта. После нескольких тестов я решил использовать k = 20, потому что количество предложений в каждом кластере выглядит более равномерно распределенным в модели, несмотря на то, что некоторые кластеры содержат небольшое количество свойств.

Карта распределения лондонских кластеров

Чтобы показать кластеры, которые не идентифицируются по плотности или географической близости, я нарисовал карту рынка. Каждый цвет обозначает определенный кластер, а каждая точка представляет доступное свойство и его географическое положение.

Рынок жилья — «Тепловая карта»

Имеет смысл построить карту нагрева, чтобы определить области, в которых представлен больший объем предложений. Этот конкретный взгляд меняется ежедневно из-за высокой активности рынка.

Набор данных с историческими временными рядами записей может быть интересен для определения того, есть ли какое-либо явление сезонности или пиков активности или нет.

Еще один анализ, который интересно провести, — изучить связь между рынком жилья и объявлениями о Brexit. Ускорил ли Brexit циклы рынка жилья, способствуя заключению большого количества краткосрочных договоров аренды, чтобы противостоять более высокой неопределенности в отношении будущего страны для иностранных граждан?

По моему мнению, глядя на карту отопления, в восточной части Лондона есть районы, в которых очень холодно. Вероятно, это связано с алгоритмом, который Rightmove использует для показа предложений конкретным пользователям. На самом деле, запросив веб-сайт для поиска предложений в Лондоне (без каких-либо дополнительных уточнений), он показывает, что есть 30 805 результатов.

На самом деле на странице размещено 25 предложений на 42 страницах, доступных для чтения пользователем, что означает всего 1050 доступных предложений (столько же предложений я анализирую для этого отчета).

Средняя стоимость однокомнатной квартиры по районам

После краткого анализа рынка я считаю, что читателям будет полезно получить обзор средней цены 5 наиболее распространенных типов квартир в зависимости от района.

Стандартное отклонение цены однокомнатной квартиры в Лондоне составляет 378 1329, а средняя цена — 1 233,09 фунтов стерлингов. Я рассчитываю коэффициент вариации, чтобы сравнить тип квартир и цену.

Коэффициент вариации (CV), также известный как относительное стандартное отклонение (RSD), представляет собой стандартизированную меру дисперсии распределения вероятностей или частотного распределения. Часто выражается в процентах и ​​определяется как отношение стандартного отклонения к среднему (или его абсолютному значению).

В этом случае коэффициент вариации равен 0,306653.

Средняя цена 1-комнатной квартиры по районам

Стандартное отклонение цены квартиры с 1 спальней в Лондоне составляет 561 9852, а средняя цена — 1 468,28 фунтов стерлингов.

Коэффициент вариации равен 0,382750

Средняя цена 2-х комнатной квартиры по районам

Стандартное отклонение цены квартиры с 2 спальнями в Лондоне составляет 949 9799, а средняя цена — 2 050,92 фунтов стерлингов.

Коэффициент вариации равен 0,463196.

Средняя цена 3-х комнатной квартиры по районам

Стандартное отклонение цены квартиры с 3 спальнями в Лондоне составляет 2 449 1497, а средняя цена — 2 892,65 фунтов стерлингов.

Коэффициент вариации равен 0,846678.

Средняя цена 4-х комнатной квартиры по районам

Стандартное отклонение цены квартиры с 4 спальнями в Лондоне составляет 5 176 5294, а средняя цена — 4 891,59 фунтов стерлингов.

Коэффициент вариации равен 1,058249.

Динамика цены по количеству спален

На графиках выше я хотел бы подчеркнуть, что изменение цены увеличивается более чем пропорционально количеству спален. Это означает, что влияние района на ежемесячную арендную плату слабее для малогабаритных квартир и квартир-студий. Конечно, это всего лишь краткий анализ явления, потому что, как мы показали ранее, квартиры неравномерно распределены по районам, но все же хорошо отражают тенденцию рынка.

На диаграммах ниже, показывающих распределение цены по количеству спален, легко определить наличие выбросов, обычно относящихся к квартирам, расположенным в округах Южный Кенсингтон, Челси или Мейфэр.

Причин такого поведения рынка может быть несколько:

  • цена квартиры-студии или однокомнатной квартиры слишком высока по сравнению со средней зарплатой, и люди не могут себе ее позволить, что делает ее менее привлекательной на рынке.
  • квартиры старые и в плохом состоянии
  • арендаторы предпочитают другие каналы для публикации этой конкретной категории квартир

И более того.

Распределение богатства

Анализ рынка жилья отражает распределение богатства в лондонском Сити. Владение богатством в Лондоне распределяется гораздо более неравномерно, чем доход. Для количественной оценки социального неравенства обычно используется коэффициент Джини.

Статистическое понимание находится между 0, что указывает на абсолютно равное население, что в данном случае означает, что все имеют одинаковый уровень богатства, и 1, что указывает на полное неравенство, когда все богатство принадлежит одному человеку. Другими словами, чем выше коэффициент Джини, тем выше уровень неравенства. Коэффициент Джини для богатства в Лондоне составляет 0,67, по сравнению с 0,61 в Великобритании в целом. Коэффициент Джини для доходов в Лондоне составляет 0,37, что намного ниже.

Успевают ли заработки и доходы в Лондоне за ростом цен на жилье?

Ежегодный обзор доступности жилья в мире, проводимый демографией, показывает, что Лондон имеет высокие мультипликаторы по международным стандартам. Медианные множители рассчитываются как отношение медианной цены дома к медианному доходу семьи и указывают на доступность/недоступность рынка жилья. Согласно национальным данным за третий квартал 2018 года, Лондон (Администрация Большого Лондона) занимает десятое место среди наименее доступных из 91 крупного столичного рынка с расчетным медианным коэффициентом 8,1.

Окончательный ввод

Цель этого анализа — не только информировать людей об аренде жилья в Лондоне, но и дать возможность отфильтровать рынок на основе их потребностей.

Репозиторий, который я загрузил на GitHub, содержит Jupyter Notebook со всем процессом анализа рынка и, в конце, ячейку, которая позволяет вводить некоторые предпочтения, такие как адрес с интересующими пользователя местами, количество спален и максимальный бюджет.

После того, как пользователь отправил информацию, алгоритм анализирует адрес и предоставляет список предложений, отфильтрованных по сходству мест.

Вывод

Я разработал этот проект, чтобы еще раз проверить свою способность решать бизнес-проблемы, внедряя решения на основе данных. Весь процесс был разработан с использованием Python, и вся документация, скриншоты и данные, которые я использовал, доступны на GitHub.

Люди могут добиться лучших результатов, если они могут принимать хорошо информированные решения. Предоставление способов принятия мудрых решений имеет важное значение для сценария будущего без потерь ресурсов.

Спасибо!

Использованная литература:

[1] https://www.rightmove.co.uk/

[2] Википедия Почтовые округа Лондона

[3] Парсер Rightmove

[4] API Foursquare

[5] API OpenCageData