1. Введение и постановка задачи

В последние годы на рынке недвижимости в Калифорнии, США, наблюдается восходящая тенденция. Согласно отчету Министерства финансов Калифорнии, средняя стоимость жилых домов на одну семью в сентябре 2021 года составила 808 890 долларов, что указывает на рост средней цены за год на 13,5%. В частности, средняя цена продажи в округе Лос-Анджелес (Лос-Анджелес) выросла примерно на 15% за последний год. До сих пор на рынке недвижимости в округе Лос-Анджелес в 2022 году наблюдался рост «12%. Принимая во внимание текущий уровень инфляции («8,5%), необходимо ответить на следующие вопросы:

(i) Каковы могут быть основные причины роста цен на жилье?

(ii) Каковы были тенденции в округе Лос-Анджелес в предыдущие годы?

(iii) Можно ли эффективно оценить текущие цены на жилье?

Чтобы выяснить, были выбраны данные оценщика участков для округа Лос-Анджелес для изучения общей стоимости участков за последние 16 лет. Следовательно, была разработана модель машинного обучения (ML) для оценки самых последних цен на посылки в Лос-Анджелесе.

2. Исследовательский анализ данных

По состоянию на апрель 2022 года Данные об участках оценщика — с 2006 по 2021 год включают 38 170 298 экземпляров и 51 объект, в общей сложности 2 485 732 участка, расположенных в округе Лос-Анджелес. По типу общего пользования более 89% участков относятся к жилым, а 4,2% – к коммерческим. Остальное распределение столбца можно увидеть в таблице 2.1. Типы земельных участков подразделяются на пять категорий: (i) SFR (жилье для одной семьи), (ii) CND (кондоминиум), (iii) R-I (жилой доход), (iv) C/I (коммерческая/промышленная недвижимость) , (v) Другое. Еще один столбец в наборе данных — это количество единиц, расположенных на каждом участке. Посылки с одной единицей составляют 74% данных, а остальные составляют 12% без единицы, 5,4% для 2 единиц, 2,2% процентов для 4 единиц и 1,61% для 3 единиц.

2.1 Изучение функций

Поскольку исходный набор данных имел большой размер файла, участки за пределами города Лос-Анджелес были исключены из исследования данных. Каждый участок был расположен на основе его координат, а окрестности каждого участка были определены на основе набора географических данных районов Лос-Анджелеса. Всего в границах города Лос-Анджелес было обнаружено 114 районов, и эти районы можно увидеть на рисунке 2.1, где также показаны средние общие значения для каждого района в 2021 году.

Кроме того, из набора географических данных для участков округа Лос-Анджелес были извлечены новые функции, такие как ShapeSTarea, ShapeSTLen и геометрия. Эти функции были проверены с использованием функций GeoPandas для определения широты и долготы участков, которые были исходными переменными CENTER_LAT и CENTRE_LON в наборе данных. Затем был проведен регрессионный анализ между общей стоимостью участка и каждым выбранным объектом. Как показано на рис. 2.2, было создано несколько визуализаций, чтобы выяснить, существует ли допустимая закономерность между общим значением и выбранными функциями. Некоторые объекты были исключены из-за необъяснимой корреляции с общей стоимостью участков.

Исследования данных также проводились за пределами исходных объектов. Поскольку целью проекта является исследование стоимости земельных участков, были рассмотрены и проанализированы аспекты, связанные с качеством жизни. Одним из аспектов была транспортная доступность, и были созданы две функции BusBenchClosestDist и SubwayStopClosestDist, чтобы понять, может ли транспортная доступность отражать стоимость участка. Еще одним аспектом была безопасность окрестностей. По этой причине самые последние данные о преступлениях были получены с веб-сайта Лос-Анджелеса. Первоначально, в случае какой-либо индуцированной предвзятости, преступления, совершенные за чертой собственности жилого помещения, не учитывались. В результате для исследования были выбраны только данные о проникновении. Однако дальнейший анализ показал отсутствие существенной связи между годовым числом случаев вторжения и средней стоимостью участка в окрестностях. Вместо этого была обнаружена умеренная закономерность между количеством преступлений и общей стоимостью посылки при включении всех видов преступлений. В связи с этим была создана и добавлена ​​в основной набор данных новая характеристикаcrime_count. Чтобы увеличить количество объектов в наборе данных, учитывалась опрятность соседних улиц, а набор географических данных был загружен с веб-сайта LA City geohub. В результате было создано пять характеристик, отражающих корреляцию между чистотой соседней улицы и значениями участков: (i) оценка чистоты (C_score), (ii) оценка крупногабаритных предметов (BI_score), (iii) оценка незаконной свалки (ID_score), (iv) оценка сорняков (WD_score) и (v) оценка подстилки (LL_score).

2.2 Очистка и подготовка данных

В качестве первого шага была проведена очистка данных. Данные по жилым участкам, особенно участкам для проживания одной семьи, сначала были отфильтрованы из исходного набора данных. В процессе очистки отфильтровывался каждый участок с «жилым» для его GeneralUseType, «SFR» для его PropertyType и «1» для его номера единицы в участке. Количество уникальных участков было уменьшено с 2 485 732 до 639 663, что указывало на то, что около 26% процентов участков в округе Лос-Анджелес были жилыми участками — SFR — 1 Unit в городе Лос-Анджелес. В процессе очистки из столбца PropertyUseCode также был удален небольшой объем набора данных, например, необычные участки (например, модульные дома и запланированные застройки). Например, односемейные дома классифицировались на основе определенных критериев: (i) «0100» означает «односемейное жилье без бассейна», (ii) «0101» представляет собой «односемейное жилье с бассейном», (iii) «0103». ” означает «Одноместное общежитие с бассейном и прочее», а (iv) «0104» означает «Одноместное общежитие с терапевтическим бассейном». В рамках нашего проекта учитывались только данные об участках с PropertyUseCode «0100», «0101», «0103» или «0104», а другие типы свойств (на долю которых приходится менее 4%) были удалены из набора данных. Один из существующих столбцов, totBuildingDataLines, показывает, сколько отдельных строений находится на участке. Поскольку на предыдущих шагах номер единицы был ограничен значением «1», участки с totalBuildingDataLines больше единицы также были удалены. Кроме того, в исходном наборе данных были участки общего пользования, такие как необлагаемые налогом и принадлежащие государству участки. Чтобы гарантировать, что набор данных содержит только частные участки, эти участки общественного или специального назначения были удалены путем фильтрации столбца SpecialParcelClassification. Среди исходных признаков были признаки/столбцы с одинаковым значением для каждого участка, и эти признаки/столбцы считались избыточными. Например, каждый выбранный участок имел значение «ДА» для столбца isTaxableParcel.

Как обсуждалось в разделе 2.1, были созданы визуализации каждой функции, и некоторые из них показаны на рис. 2.2. Помимо исследования моделей корреляции, были также некоторые выбросы или очевидные вводящие в заблуждение данные, которые необходимо было удалить. Основываясь на наблюдении, участки с необоснованным возрастом зданий были удалены путем фильтрации BuiltYear и EffectiveYearBuilt после 1850 года. EffectiveYearBuilt описывает год последней реконструкции участка. Точно так же участки с LandBaseYear 1907 года имели необоснованные закономерности и поэтому были удалены.

Также была проведена очистка количественных данных для устранения вводящих в заблуждение выбросов. Посылки общей стоимостью более 50 миллионов долларов были удалены. Удалены участки с более чем 19 спальнями и более чем 20 ванными комнатами. Что касается геометрии участков, SQFTmain участков был ограничен диапазоном от 500 до 40 000 квадратных футов, чтобы быть статистически чистым для модели. Кроме того, ShapeSTAre, описывающий площадь участка, был ограничен диапазоном от 1000 до 600 000 квадратных футов, а ShapeSTLen, описывающий длину участка, был ограничен до 4000 футов. Подводя итог, было установлено, что только 0,2% выбранного набора данных состоит из выбросов, и они были отфильтрованы перед разработкой модели машинного обучения.

2.3 Тенденции в Лос-Анджелесе

В Лос-Анджелесе 114 районов, и ожидается, что некоторые из них дороже, чем другие. Чтобы увидеть, есть ли такая тенденция в Лос-Анджелесе, среднее общее значение для каждого района было оценено на основе отфильтрованного набора данных. На рисунках 2.3 и 2.4 показана самая последняя (2021 г.) средняя общая стоимость каждого района, а также средняя общая стоимость земельных участков, проданных в 2021 г. Эти данные были разделены на два графика, чтобы сделать их более читабельными (рис. 2.3 для первой половины и рис. 2.4 для второй половины). Цифры также включают количество участков в каждом районе и количество участков, проданных в 2021 году. Как видно из рисунков 2.3 и 2.4, районы Бел-Эйр, Беверли-Крест и Брентвуд являются самыми дорогими районами Лос-Анджелеса. Средняя общая стоимость одного участка составляет более 2,75 млн долларов США в этих трех районах, тогда как средняя общая стоимость в Лос-Анджелесе составляет около 670 тыс. долларов США, что свидетельствует о неравном распределении между районами. Всего в 36 районах цены выше среднего, а в 78 из них — ниже среднего. С другой стороны, средняя общая стоимость земельных участков, проданных в 2021 г. (см. вторую строку на рисунках 2.3 и 2.4), указывает на то, что на самом деле земельных участков было продано в два раза больше, чем средняя общая стоимость земельных участков в каждом районе города Лос-Анджелес. Это соотношение можно увидеть в третьей строке рисунков 2.3 и 2.4 для каждой окрестности.

Что касается количества участков в Лос-Анджелесе, Вудленд-Хиллз содержит более 15 000 участков по соседству, а Гранада-Хиллз и Вест-Хиллз имеют около 13 000 участков в пределах своих границ. Как и ожидалось, самым продаваемым районом в 2021 году стал Вудленд-Хиллз, где было продано более 540 участков. В 2021 году в пяти районах не было продаж (Хансен-Дам, Гриффит-Парк, Чатсуортское водохранилище, Чайнатаун, Даунтаун), но и в них не так много участков, доступных для продажи (всего 94 участка). Последняя строка на рисунках 2.3 и 2.4 показывает, что в 2021 году в Лос-Анджелесе было продано в среднем 2,5% от общего количества земельных участков в каждом районе. Верхняя и нижняя границы этой тенденции составляют 4,55% (Century City) и 0,6% (Elysian Park). .

Еще одной интересной тенденцией могут стать ежегодные изменения общей стоимости посылок. Для этой цели была рассчитана средняя общая стоимость за каждый год и нанесена на рис. 2.5 вместе со средней общей стоимостью посылок, проданных за каждый год, и количеством проданных посылок за год. Первая строка на рисунке показывает, что средняя общая стоимость посылок увеличилась более чем на 100% в городе Лос-Анджелес за 16-летний период. Что касается посылок, продаваемых каждый год, то увеличение общей цены за 16 лет меньше, 65%. Третья строка на рис. 2.5 показывает, насколько цена продажи изменилась за эти годы. В среднем посылка была продана на 90% дороже, чем средняя общая стоимость в Лос-Анджелесе. Однако эта тенденция составляла около 150% в 2006 г. и начала снижаться из-за жилищного пузыря в 2008–2009 гг. Он не смог вернуться к тому же значению 2006 г. в течение 16 лет, но начал расти после 2012 г., и в настоящее время он превышает средний показатель за 16 лет. В четвертой строке рисунка 2.5 показано количество посылок, продаваемых каждый год. Можно видеть, что жилищный пузырь вызвал значительное снижение продаж в 2008 г. Однако представляется вероятным, что люди воспользовались более дешевыми ценами на жилье (см. вторую строку) в последующие годы до 2014 г. После этого постоянное снижение продаж в Лос-Анджелесе и резкое падение в 2019 году. На рис. 2.5 показано, что продажи отдельных жилых домов снова начали расти за последние два года, и причиной может быть продвижение удаленной работы во время пандемии (COVID-19). Наконец, в Лос-Анджелесе ежегодно продавалось в среднем 2,7% посылок.

И последнее, но не менее важное: важно выяснить, как жилищный пузырь повлиял на отдельные участки в Лос-Анджелесе. Как видно из рисунка 2.5, средняя общая стоимость участков для каждого района была нормализована на основе среднего значения в 2006 г. Таким образом, мы могли наблюдать изменение средней стоимости для каждого района за 16-летний период. Из первой строки рисунка 2.5 видно, что средняя стоимость посылок никогда не была ниже уровня инфляции. Однако в двух районах, Даунтаун и Гриффит-Парк, в 2021 году уровень инфляции оставался ниже уровня инфляции. Это можно объяснить количеством доступных участков для одной семьи в этих районах, как упоминалось ранее. Напротив, Beverly Grove утроила свою стоимость в 2006 году. Fairfax, Venice и Beverlywood последовали за лидером, увеличив свою стоимость более чем на 150% за 16-летний период. В среднем наблюдалось почти 100% увеличение средней общей стоимости посылок. Что еще более важно, средняя стоимость районов показывает расходящуюся тенденцию, и это может привести к неравенству среди районов Лос-Анджелеса. Если бы учитывались посылки, продаваемые каждый год, история была бы другой. Из-за жилищного пузыря средняя стоимость земельных участков, продаваемых каждый год в Лос-Анджелесе, оставалась ниже уровня инфляции более восьми лет. Это резкое снижение средних цен на земельные участки было в основном вызвано жилищным пузырем и его последствиями, которые для некоторых районов длились более 12 лет. Более того, большинство из них не смогли даже превысить линию инфляции в 2021 году. Наконец, третья строка рисунка 2.5 иллюстрирует среднюю стоимость участков, не проданных за последние 16 лет. Хотя она имеет аналогичную линию инфляции тенденцию, увеличение среднего значения было немного ниже, чем уровень инфляции, что может быть преимуществом для землевладельцев с точки зрения налоговых платежей.

3.1 Фильтрация данных

Перед подгонкой моделей линейной регрессии необходимо было выполнить некоторую фильтрацию данных, чтобы упростить задачу и устранить потенциальные источники ошибок. Как отмечалось в части исследовательского анализа данных, с 2006 по 2021 год были данные за 16 лет. Чтобы избежать временного разделения исторических данных, данные об участках были отфильтрованы до данных за 2021 год, так что модель машинного обучения работает только с самые свежие данные. Это не только устраняет сложность, но и данные о недвижимости, как правило, очень быстро устаревают, поэтому эта фильтрация служит для удаления в значительной степени нерелевантных данных для текущих рынков недвижимости. Кроме того, очищенные данные были дополнительно отфильтрованы, чтобы ограничить общую стоимость недвижимости до 2 миллионов долларов, чтобы включить только дома среднего класса и ниже, поскольку точки данных были бы слишком обобщенными, если бы были включены все цены на жилье до 50 миллионов долларов. . Роскошные дома и большие особняки имеют разные входные и выходные параметры, влияющие на их общую стоимость. Модель линейной регрессии, вероятно, будет недостаточной для учета домов стоимостью до 50 миллионов долларов, поскольку ей потребуется резко адаптировать свои параметры на основе широкого диапазона цен на жилье. Сравнение стандартных свойств с этими специализированными объектами высокого класса привело бы к появлению множества выбросов в наборе данных, и поэтому данные были ограничены ценой в 2 миллиона долларов. Была одна точка данных с районом, помеченным как «Гриффит-парк», который считается выбросом, поэтому он также был исключен из набора данных. Наконец, из данных была отфильтрована недвижимость, которая не продавалась с 2015 года. Дома, которые не продавались в течение длительного времени, являются устаревшими точками данных, поскольку их базовая стоимость домов не обновлялась с момента их последней продажи, поэтому их общая стоимость, указанная в наборе данных, скорее всего, не будет отражать их фактическую рыночную цену. Это запутает модели машинного обучения и, вероятно, снизит точность модели. После этой операции фильтрации осталось примерно 87 000 точек данных, что более чем достаточно, чтобы проклятие размерности практически не повлияло на них.

Данные также были разделены на квартили на основе общего значения, чтобы обеспечить стратификацию данных. Это гарантирует, что обучающий, проверочный и тестовый наборы имеют одинаковое распределение домов в разных ценовых диапазонах, а не разбросанные и несбалансированные распределения данных. Кроме того, это хорошая функция для добавления в модель машинного обучения, поскольку она помогает отличать более богатые дома от более бедных с помощью квартильного бинирования. Это может быть легким случаем обучения проверке загрязнения, поскольку Quartile_Number был создан со всем набором данных, но количество загрязнения, возможно, незначительно, поскольку единственная потенциальная утечка — это пределы TotalValue каждого бина, которые уже находятся на консервативной стороне (будучи Квартили, которые уже являются большими ячейками). Это был необходимый риск для достижения сбалансированного разделения обучения, проверки и тестирования с использованием стратификации.

Особенности отфильтрованных данных можно увидеть в таблице 3.1.

Также была изучена корреляция признаков, как показано на рисунке ниже.

Последним шагом перед разработкой признаков было разделение данных на наборы для обучения, тестирования и проверки для подбора модели, перекрестной проверки и окончательного тестирования.

3.2 Разработка функций и выбор функций

Разработка признаков была важным процессом в разработке моделей линейной регрессии. Основными приоритетами разработки признаков было предотвращение утечки данных и разработка новых признаков, которые имеют высокий показатель корреляции с целью.

Одной из функций, которая была разработана до разделения поезд-тест, была Quartile_Number. Физическое представление этой функции в основном состоит в том, чтобы широко различать общее качество дома в иерархии. Эта функция чувствительна к загрязнению в ходе тренировочного теста, поскольку она была выполнена на всем наборе данных. Однако было бы крайне сложно стратифицировать наборы данных, не объединяя их в группы квартилей на основе TotalValue, поскольку целевые значения (TotalValue) являются числами с плавающей запятой, а это означает, что многие значения уникальны, и невозможно разделить уникальные значения на несколько наборы данных. Кроме того, это конкретное загрязнение, связанное с испытанием поезда, можно считать незначительным, поскольку единственное потенциальное загрязнение находится в нижней и верхней границах каждой ячейки, что составляет максимум только три значения при использовании квартилей. Опытные инвесторы в недвижимость, агенты и продавцы, скорее всего, смогут сгруппировать дома в более мелкие ячейки, чем квартили, на основе TotalValue в знакомой им географической области, поэтому информация, предоставляемая Quartile_Number, скорее всего, уже известна. Таким образом, это не случай целевой утечки, загрязнение поезд-теста пренебрежимо мало, и это была выбранная функция, используемая в модели линейной регрессии, из-за ее высокой корреляции с целью.

Поскольку цены на недвижимость очень зависят от соседей, многие опытные инвесторы в недвижимость обычно знают ориентировочные и/или средние цифры того, сколько дом должен стоить в одном районе, каковы обычно старые дома в определенных районах, насколько большие или маленькие дома в район, как правило, и т. д., если это район, с которым они знакомы. Для имитации этих знаний можно разработать функции, найдя медианы, сгруппированные по районам и базовым годам земли. Это не будет считаться целевой утечкой, поскольку информация доступна в отрасли, и она не загрязнена тренировочным тестом, поскольку медианы были найдены с использованием только обучающей выборки. Медианные значения YearBuilt, EffectiveYearBuilt, SQFTmain, LandValue и TotalValue использовались в качестве признаков в модели линейной регрессии.

10 самых богатых и 10 самых бедных районов были определены с использованием порядков возрастания/убывания медианы TotalValue, отсортированных по районам. Они использовались в качестве признаков в модели линейной регрессии для дальнейшего разграничения иерархических частей инвестирования в недвижимость.

Кроме того, PropertyUseCode и TaxRateArea были закодированы сразу, чтобы модель линейной регрессии учитывала категориальные данные. PropertyUseCode различает свойства с пулом, без пула, пул и прочее и терапевтический пул. TaxRateArea различает область налоговой ставки каждого объекта недвижимости в зависимости от географического положения.

PropertyUseCodes использовались в качестве функций в модели линейной регрессии, но TaxRateAreas не использовались, поскольку они создали более 100 новых функций. Учитывая, что включение TaxRateArea в модель линейной регрессии дало мало пользы для точности модели, риск подвергнуться проклятию размерности сделал включение TaxRateArea нецелесообразным.

Окончательные признаки, выбранные для модели линейной регрессии, показаны на рис. 3.2.

Где функции были выбраны на основе корреляции с целью, максимизируя точность модели, избегая утечки данных и сводя к минимуму риск проклятия размерности. С набором данных для тестирования и проверки, состоящим примерно из 13 000 точек данных каждый, набором данных для обучения, состоящим примерно из 61 000 точек данных, и 22 признаками, отношение характеристик к точкам данных оказывается достаточно низким, чтобы проклятие размерности не было проблемой. проблема.

Несмотря на то, что LandValue была функцией, которая имела 95% корреляцию с TotalValue, инвесторы в недвижимость, как правило, не знают отдельных очень конкретных LandValues ​​для каждого дома, поэтому включение LandValue в качестве функции в модель линейной регрессии было бы формой целевой утечки. Поэтому LandValue не был включен в модель линейной регрессии.

Окончательная матрица корреляции для модели линейной регрессии показана на рис. 3.3.

3.3 Модель линейной регрессии — обычный алгоритм наименьших квадратов

Линейная регрессия была выбрана в качестве модели машинного обучения, поскольку она надежна и проста в создании. Это было сделано с помощью функции LinearRegression Scikit-Learn, которая использует обычный решатель наименьших квадратов. Был создан повторно используемый конвейер для обработки и объединения всех выбранных функций и разбиения данных на значения X (выбранные функции) и Y (TotalValue). В качестве функции ошибки использовалась функция потерь среднеквадратичной ошибки (RMSE) с уравнением, показанным ниже.

Модель линейной регрессии была создана с использованием метода KFolds с 5 кратностями. Однако метод KFolds не может быть стратифицирован, поскольку целевые значения TotalValues ​​представляют собой уникальные значения с плавающей запятой, а это означает, что разделить данные на равные части будет сложно. Модель использовалась в обучающих, проверочных и тестовых наборах данных для получения RMSE и точности. Точность моделей была рассчитана по приведенному ниже уравнению.

Точность и значения RMSE по методу KFolds можно увидеть в таблице 4.2.

3.4 Модель линейной регрессии — градиентный спуск

Другой способ создания модели линейной регрессии — итеративно с помощью процедуры градиентного спуска. Функции, выбранные для модели градиентного спуска, были взяты из функций, выбранных для стандартной модели линейной регрессии, на основе максимальной корреляции с целью с использованием набора обучающих данных для создания матрицы корреляции со всеми потенциальными функциями. Были выбраны четыре основных признака: SQFTmain, Quartile_Number, TotalValue_median и LandValue_median. Матрица корреляции этих четырех признаков и целевого общего значения показана на рис. 3.4.

Где SQFTmain — это жилая площадь жилой недвижимости, Quartile_Number — это ценовой диапазон каждой собственности, разделенный на квартили всего набора данных, а TotalValue_median и LandValue_median — это медианные общие цены и цены на землю, соответственно, сгруппированные по районам и тому, как недавно недвижимость продал.

Для Gradient Descent были выбраны четыре функции, чтобы включить все спроектированные и предварительно включенные функции, которые имели корреляцию с целевым значением (общее значение) более 0,5, и чтобы поддерживать время вычислений на разумном уровне. По сути, суждения были сделаны на основе того, принесет ли незначительное увеличение характеристик достаточную выгоду, чтобы оправдать включение его в модель, поскольку каждое увеличение характеристики имело уменьшающуюся предельную отдачу из-за уменьшения корреляции с целью для каждой добавленной предельной характеристики.

Чтобы создать алгоритм градиентного спуска с наиболее прямой и эффективной конвергенцией, все функции были масштабированы со стандартным масштабированием, так что каждая функция имеет одинаковый вес на основе ряда стандартных отклонений от среднего значения. Стандартное масштабирование объясняется с помощью приведенного ниже уравнения.

Причина, по которой масштабирование черт лица так важно в градиентном спуске, лучше всего описана с помощью изображения, показанного ниже, где левая сторона показывает градиентный спуск без масштабирования, а правая сторона показывает градиентный спуск с масштабированием.

Путь к конвергенции с масштабированием становится короче и прямее, что в конечном итоге приводит к минимизации количества эпох и, соответственно, минимизации времени вычислений, необходимого для достижения конвергенции.

Выбранная функция потерь для сходимости представляла собой среднеквадратичную ошибку, которая определяется следующим уравнением.

Критерии сходимости были установлены таким образом, чтобы все итерационные изменения тета-значений не превышали 0,1% по сравнению с предыдущим тета-значением. Поскольку модель не предсказывала двоичные результаты, производительность модели нельзя было просто определить с помощью стандартной точности, точности, f1, полноты и т. д. Вместо этого производительность измерялась с помощью следующего уравнения.

Конечный результат можно обобщить с помощью таблицы ниже.

4. Заключение

Модель линейной регрессии с обычными наименьшими квадратами дала примерно 83% точности для наборов данных для обучения, проверки и тестирования.

Модель линейной регрессии с градиентным спуском была достаточно точной с согласованными результатами между обучающим набором, проверочным набором и тестовым набором с точностью примерно 81%. Однако по сравнению с моделью линейной регрессии с обычными наименьшими квадратами точность модели градиентного спуска была хуже при заметно большем времени вычислений.

Две модели линейной регрессии были созданы для обработки данных о недвижимости, предоставленных городу Лос-Анджелес. Однако признаки, используемые в модели, носят достаточно общий характер и обычно собираются на практике. Таким образом, модель универсальна и может быть использована для любого рынка недвижимости при условии предоставления необходимых данных достаточного качества.

Если кто-то заинтересован в применении этих алгоритмов к другим рынкам недвижимости, рекомендуется переоценить выбор признаков на основе корреляции для повышения точности модели. Это связано с тем, что разные географические районы могут иметь разный вес для определенных результатов. Например, в пригородных зонах вблизи крупных городов может быть выгоднее включить близлежащие станции метро и/или автобусные остановки. Или в районах с гораздо меньшим разрывом в уровне благосостояния, чем в Калифорнии, может быть не так полезно различать богатые районы, районы среднего класса, бедные районы и т. д. Всегда рекомендуется помнить контекст, лежащий в основе алгоритма, для создания наилучшей возможной регрессии. модель.

В качестве одного из возможных улучшений, особенно для модели градиентного спуска, может быть преобразование функций в ее основные компоненты, чтобы большая часть вариаций могла быть учтена с использованием меньшего количества функций. Это может быть одним из методов повышения точности модели без увеличения времени вычислений.

Репозиторий Github

Доступ к репозиторию Github этого проекта можно получить по следующей ссылке: https://github.com/EricJXShi/CIV1498-Project2