Автор: Зейн Шах и Зак Готтесман

Первоначально опубликовано на Opendoor.com:



В Opendoor мы стремимся упростить перемещение, предоставляя продавцам больше уверенности благодаря конкурентоспособным предложениям с оплатой только наличными. Мы можем сделать это, используя комбинацию человеческого и машинного интеллекта. В частности, мы дополняем прогнозы стоимости жилья на основе данных знаниями местного рынка от экспертов по недвижимости.

Любой риэлтор скажет вам, что одним из наиболее важных факторов, которые следует учитывать при оценке стоимости дома, — если не самым важным — является его местоположение. Некоторые простые примеры внешних факторов местоположения включают удобства района и пешеходную доступность. Для нас одним из наиболее важных и удивительно сложных факторов является то, подвергается ли дом воздействию оживленной дороги (и, следовательно, воздействию дорожного шума) [1, 2, 3].

Вот как мы автоматически включили эту информацию в наши модели, используя как знания о местной недвижимости, так и данные.

Соревнование

В прошлом наша модель оценки часто не согласовывалась с предложениями наших экспертов по недвижимости в отношении домов, затронутых дорогами с интенсивным движением. Мы обнаружили, что наши оценщики-люди и наша модель очень по-разному корректировали загруженность дорог. На самом деле корректировки загруженных дорог стали причиной почти 11% основных расхождений в оценках между нашей моделью и местными экспертами. Из-за распространенности и масштабов наших автоматических промахов оценки мы были полны решимости разработать более интеллектуальную функцию загруженной дороги и улучшить наши существующие данные о дорогах.

Предыдущие подходы

Opendoor использует свободно доступный совместный набор данных, известный как OpenStreetMap, для геометрии наших дорог. Вы можете думать об OpenStreetMap (OSM) как о чем-то вроде Википедии для данных о дорогах. OSM идеально подходит для картографических проектов с открытым исходным кодом и содержит особенно подробные данные о геометрии дорог, что делает его идеальным для геопространственных операций.

К сожалению, данные OSM не предназначены для осмысленного описания объема трафика. Лучшее, что мы можем сделать с помощью одних только векторных данных OSM, — это угадать объем трафика на дороге на основе ее типа. Другими словами, если дорога помечена как «автомагистраль» (на языке OSM означает «большое шоссе»), это должно указывать на интенсивное движение. Если дорога обозначена как «жилая дорога», это должно указывать на низкую интенсивность движения.

Эти метки дорог OSM предназначены только для того, чтобы различать, как дорога должна отображаться на карте. Ярлыки обязательно не отражают объем трафика. Мы не хотим приписывать неправильную плотность движения дорогам, потому что это может исказить прогноз нашей модели оценки дома клиента.

Как правило, наши операторы рынка соглашаются с корректировками загруженности дорог, сделанными OSM, при оценке дорог, классифицируемых как автострады и автомагистрали. Однако это соглашение нарушается, когда мы изучаем поправки, которые наша модель делает для домов на магистральных дорогах, соединительных маршрутах и ​​главных улицах в микрорайонах. Схемы движения последних типов дорог гораздо более детализированы, и их труднее получить из общедоступных данных.

Подводные камни других наборов данных

Мы исследовали несколько альтернативных наборов данных о дорожном движении, включая данные Министерства транспорта, данные о дорожном движении от частных компаний и данные о шуме от Транспортного управления. К нашему ужасу, мы обнаружили, что эти наборы данных не содержат точных данных, которые нам нужны.

Наш вариант использования требует высокого покрытия для всех видов дорог, даже небольших дорог в жилых районах. Что нам нужно, так это набор данных, достаточно детализированный, чтобы описать небольшие дорожные сети, в которых живут люди, и именно здесь произошло большинство наших неправильных оценок.

Будьте тем набором данных, который вы хотите видеть в мире

Opendoor хранит в себе сундук с сокровищами внутренних данных о стоимости домов и корректировках, сделанных при сравнении дома с другими проектами. Если вы не знакомы с внесением корректировок для сопоставимого дома, ознакомьтесь с нашим руководством Как Opendoor рассчитывает стоимость дома.

У нас есть не только местные эксперты по недвижимости, которые обсуждают стоимость тысяч домов на каждом рынке, но и прямые данные о динамике рынка, поскольку мы являемся одним из крупнейших продавцов жилья на рынках, на которых мы работаем.

Предложения, которые мы сделали для домов наших клиентов, содержат ценную информацию от наших экспертов о том, какие дороги больше всего влияют на стоимость домов, но эти данные ограничены информацией на уровне домов, и поэтому их трудно обобщить на новые предложения.

Однако с надежным набором данных о геометрии дорог мы можем обобщить эту информацию для предложений новых домов, которые мы никогда раньше не видели, если мы можем выяснить, какая дорога отвечает за данную корректировку. Таким образом, мы не повторим ту же ошибку для нового дома, пока он находится на дороге, по которой мы ранее делали предложение. Более того, эти данные будут улучшаться со временем по мере роста нашего набора данных о предложениях.

Нам нужно соседство

Чтобы построить этот набор данных, нам нужно лучше понять, для какой дороги была сделана корректировка дома, а также какие дома должны быть затронуты данной дорогой. Другими словами, мы на самом деле не знаем, какая дорога отвечает за то, что данный дом продается на 10 тысяч долларов меньше, чем должен, поэтому нам нужно вывести эту информацию.

В прошлом мы пришли к выводу, что на дом влияет дорога с интенсивным движением только по его расстоянию до ближайшей дороги с интенсивным движением (+ отсечка). Подход «расстояние + отсечка» плохо работает для плотных или разреженных групп домов.

Например, если дом A находится недалеко от большого шоссе, но дом B зажат между домом A и шоссе, мы все равно могли бы скорректировать дорогу с интенсивным движением к дому А, когда этого делать не следовало. Точно так же мы упускаем из виду, когда дом находится рядом с шоссе, но за пределами нашей границы отсечения. При такой неточной связи между дорогами и домами мы разбавляем эту ценную информацию, распространяя ее по всем близлежащим дорогам.

Чем точнее мы сможем отнести определенную разницу в оценке к конкретной дороге, тем более ценным будет наш набор данных. Поначалу может показаться разумным посмотреть на название улицы в адресе дома или на любую дорогу, проходящую через участок, на котором стоит дом. К сожалению, это не относится к случаям, когда шоссе проходит вдоль заднего двора дома. Между ними может быть поле, но трафик все еще может быть бельмом на ухе и глазах.

С этой целью мы решили определить ассоциацию как ассоциацию смежности — она затрагивает только дома, «прилегающие» к дороге. Для этого нам нужна надежная ассоциация, которая может учитывать любые дороги, к которым дом может примыкать в любом направлении.

Диаграммы Вороного

Мы определяем смежность с помощью так называемой диаграммы Вороного. Диаграмма Вороного — это разбиение заданного пространства на основе набора точек с использованием алгоритма, называемого триангуляцией Делоне. Алгоритм эффективно делит пространство на области для каждой точки, так что все в данной области находится ближе к этой точке, чем к любой другой точке.

Это хорошо удовлетворяет нашим требованиям, потому что мы хотим знать, находится ли дом ближе к данной дороге, чем что-либо еще, независимо от определенного ограничения расстояния. Если дом А находится ближе к оживленной дороге, чем дом Б, то его Вороной район будет соприкасаться с дорогой, а Вороной район дома Б — нет.

Уменьшение

Наш расчет смежности выполняется путем сбора всех координат геометрии дороги и координат дома в набор точек для данного рынка. Затем мы создаем диаграмму Вороного из набора всех точек (координаты дороги и дома).

Из этой диаграммы Вороного мы смотрим на все домашние точки и вычисляем, касается ли их область Вороного области Вороного точки дороги. Если домашняя область соприкасается с дорогой, то говорят, что этот дом примыкает к этой дороге, потому что область пространства, расположенная ближе к этой дороге, чем что-либо еще, также ближе к дому, чем что-либо еще.

На высоком уровне мы генерируем наш набор данных, выполнив следующие действия:

  1. Для заданной геометрии дороги OSM мы находим дома, примыкающие к дороге.
  2. Затем мы ищем предыдущие изменения человека в любом из этих соседних домов.
  3. Из предыдущих корректировок, сделанных человеком, мы вычисляем среднее значение корректировки дороги.
  4. Мы помечаем геометрию дороги OSM средним значением корректировки дороги (которое мы затем можем использовать для будущих предложений по любым домам, прилегающим к этой конкретной геометрии дороги).

Когда данные улучшаются, клиент выигрывает

Итак, как эта новая смесь данных о загруженных дорогах повлияла на эффективность нашей модели оценки? Как упоминалось ранее, этот набор данных со временем растет по мере того, как мы собираем больше данных о корректировке человеком для любого конкретного рынка. Имея это в виду, неудивительно, что мы обнаружили, что эти данные наиболее полезны для рынков, на которых мы работали дольше всего, таких как Феникс и Даллас.

Благодаря быстрому конкурентному предложению на любой подходящий дом Opendoor может дать любому свободу передвижения. Знание того, как дома, расположенные рядом с дорогами с интенсивным движением, работают на рынке, позволяет нам работать более эффективно и привлекать больше клиентов, что, в конце концов, является самым важным.

Заинтересованы в использовании данных о недвижимости для повышения прозрачности крупнейшей финансовой покупки в жизни? Присоединяйтесь к нашей команде или узнайте больше о задачах, которые мы решаем.