В прошлом году я провел небольшой анализ рынка жилья Сиднея, используя последние данные переписи населения, а также несколько других общедоступных наборов данных. В результате этого исследования мы сможем определить «правильную» медианную цену дома для любого почтового индекса в Сиднее на основе их факторов пригодности для жизни. Хотя рынок сильно изменился с прошлого года, предложенный метод все еще может быть полезен, если кто-то интересуется этой областью.

Этот анализ будет разделен на две части:

Часть 1: цель исследования, получение данных и результатов разведочного анализа

Часть 2: эксперимент, моделирование и оценка

Цель этого исследовательского проекта

За последние 10 лет цены на жилую недвижимость в Сиднее выросли на 111 % (примерно 8 % в год) 1 , в то время как средний доход домохозяйства увеличился только на 52 % (примерно 4 % в год) 2. Постоянно снижающаяся доступность жилья делает поиск домов мечты еще более сложным для покупателей жилья. Понимание взаимосвязи между факторами пригодности для жизни (на основе отчета EIU о пригодности для жизни 3) и ценой на недвижимость будет ценным для покупателей жилья, чтобы помочь им в принятии решений.

CoreLogic Australia, «Отношение цены на недвижимость к доходу растет в Сиднее, Мельбурне и Канберре, но не меняется или падает в других местах»4

Обзор исследовательского вопроса

Объем этого исследовательского проекта заключается в изучении взаимосвязи между факторами пригодности для жизни и ценой на недвижимость на уровне почтового индекса в столичном районе Сиднея (на основе географического определения ABS). 5. Регрессионная модель подходит для этой цели исследования. Нулевая гипотеза для этого исследования: факторы благоустроенности (включая здравоохранение, образование, стабильность, культуру, окружающую среду и инфраструктуру) не будут влиять на цену жилой недвижимости.

Зависимая переменная

Цена недвижимости получена из RPData, предоставленной CoreLogic.

Независимая переменная

Прокси, представляющие здравоохранение, образование, стабильность, культуру, окружающую среду и инфраструктуру, полученные из различных общедоступных источников данных, см. техническое резюме.

Обзор данных

Для этого анализа зависимая переменная «цена на недвижимость» была получена из отчета «Тенденции рынка», предоставленного CoreLogic 6. Этот отчет содержит 12 533 строки информации на уровне пригорода для обоих типов собственности (т. е. квартиры и дома) по всей Австралии. Зависимой переменной, выбранной для нашего анализа, является медианная цена продажи дома за последние 12 месяцев (заканчивающаяся 28 февраля 2017 г.).

В качестве независимых переменных (предикторов) для представления здравоохранения была выбрана потенциально предотвратимая госпитализация, для представления образования были выбраны количество государственных школ на душу населения (учащиеся) и количество мест по уходу за детьми на душу населения (дети), для представления удобства использовалось расстояние до города. уровень преступности был выбран для представления стабильности, флага железнодорожного вокзала и номера. автобусные остановки на душу населения использовались для представления инфраструктуры. Помимо загрузки общедоступных данных с исходного веб-сайта, методы парсинга также использовались для извлечения некоторых других данных из Интернета. (подробные методы извлечения можно найти в техническом резюме)

Импорт, выборка и преобразование

После извлечения все данные были загружены в R для консолидации и преобразования. Во-первых, почтовый индекс для сопоставления 5 GCCSA был загружен в R в качестве основы для компиляции консолидированного фрейма данных. 260 почтовых индексов были определены «в рамках» (т. е. почтовые индексы метро Сиднея). Все остальные данные были импортированы в R и преобразованы в уровень почтового индекса. Соответственно были рассчитаны показатели на душу населения. Объединение было выполнено с использованием функции слияния в R для добавления каждого столбца переменных в консолидированный фрейм данных. Метод нормализации (Z-оценка 14) использовался для нормализации влияния масштаба переменных, и минимальный размер выборки 30 (#продажи дома) был был установлен для каждого почтового индекса, чтобы удалить некоторый шум в данных. Есть 236 почтовых индексов, которые соответствуют критериям размера выборки.

Исследовательский анализ данных (EDA)

Исследовательский анализ был проведен, чтобы понять: 1. Отсутствие наших данных; 2. Распределение каждой переменной и; 3. Связь высокого уровня между переменными. Несколько визуализаций были показаны ниже, чтобы показать некоторые из наших результатов.

Средняя цена дома в Сиднее

Кажется, чем ближе почтовый индекс к городу, тем дороже будет дом.

Диаграмма плотности/блочная диаграмма цен на жилье

Большая часть (75%) стоимости дома находится в пределах 350-1,7 млн ​​долларов. Медиана составляет 1,35 миллиона долларов.

Распределение цен на жилье по сравнению со здравоохранением

Отрицательная связь между ценой на жилье и предотвратимой госпитализацией (pph)

Предложение

На этапе 2 проекта целью будет понимание и количественная оценка взаимосвязи между пригодностью для жизни почтового индекса и средней ценой на жилье. Регрессионные модели будут использоваться для проверки взаимосвязи. Набор обучающих данных и набор данных перекрестной проверки будут разделены на подмножества.

Модели будут обучаться с использованием обучающего набора и проверяться с использованием проверочного набора (для проверки производительности вне выборки). Для проверки мы проверим: 1. Объяснительную способность модели (с использованием среднеквадратичного отклонения); 2. Статистическая значимость каждого предиктора (с использованием p-значения); 3. Коэффициенты предикторов для определения их важности (поскольку мы уже стандартизировали шкалу наших переменных в препроцессинге). Как только мы получим надежную модель, мы сможем найти подходящий почтовый индекс для жизни в соответствии с нашими собственными критериями.

Инструменты, используемые для очистки и визуализации данных

R 3.4.1 был основным программным обеспечением, используемым для этого анализа. Rstudio использовалась в качестве IDE для программирования.

Для очистки данных использовался пакет dplyr для суммирования и агрегирования данных, tidyr использовался для изменения формы данных (т. е. «длинный в широкий»). Функция масштабирования из базового пакета использовалась для стандартизации каждой переменной (т. е. z-показатель был рассчитан для устранения влияния масштаба).

Для визуализации использовался пакет ggplot2 для построения графика распределения каждой переменной (диаграмма плотности, гистограмма), пакет amelia для визуализации пропусков в данных, пакет corrplot для визуализации корреляции между переменными, пакет ggmap и Tableau был использован для визуализации географического понимания каждой переменной.

Ссылки

  1. Австралийское бюро статистики, 6416.0 Индексы цен на жилую недвижимость, 201703, http://www.abs.gov.au/AUSSTATS/[email protected]/DetailsPage/6416.0Mar%202017?OpenDocument
  2. Австралийское бюро статистики, Census QuickStats, 2006/2016, http://www.abs.gov.au/websitedbs/D3310114.nsf/Home/2016%20search%20by%20geography
  3. The Economist, The Global Liveability Report 2017, https://www.eiu.com/public/topical_report.aspx?campaignid=liveability17
  4. CoreLogic Australia, Отношение цены на недвижимость к доходу растет в Сиднее, Мельбурне и Канберре, но остается неизменным или снижается в других местах, http://blog.corelogic.com.au/2016/06/property -цена-доход-соотношение-рост-сидней-мельбурн-канберра-квартира-падение-в другом месте/
  5. Австралийское бюро статистики, Австралийский стандарт статистической географии, 201607, http://www.abs.gov.au/AUSSTATS/[email protected]/DetailsPage/1270.0.55.001July%202016?OpenDocument
  6. CoreLogic Australia, CoreLogic Market Trends, Corporate Edition, 20170228, http://www.corelogic.com/products/market-trends.aspx
  7. Австралийский институт здравоохранения и социального обеспечения,
    Веб-обновление: Потенциально предотвратимые госпитализации в 2015–2016 годах,
    https://www.myhealthycommunities.gov.au/our-reports/potentially-preventable- госпитализации-обновление/июль-2017
  8. Департамент образования, Государственные школы Нового Южного Уэльса и зачисление, 201703, https://data.nsw.gov.au/data/dataset/ccb35a2f-c864-4537-8a71-8add3bf81960
  9. Управление качества образования и ухода за детьми Австралии, Национальный реестр по уходу за детьми, http://www.acecqa.gov.au/national-registers
  10. Бюро криминальной статистики и исследований Нового Южного Уэльса, 2015 г.12, http://www.bocsar.nsw.gov.au/Pages/bocsar_crime_stats/bocsar_detailedspreadsheets.aspx
  11. Австралийское бюро статистики, Census TableBuilder, 2016 г., http://www.abs.gov.au/websitedbs/D3310114.nsf/Home/2016%20TableBuilder
  12. Википедия, формула Хаверсина, https://en.wikipedia.org/wiki/Haversine_formula
  13. Транспорт для Нового Южного Уэльса, Полное расписание GTFS, 20170309, https://opendata.transport.nsw.gov.au/dataset/timetables-complete-gtfs