За RentRadar, новый инструмент искусственного интеллекта от HousingAnywhere

Всего около 10 лет назад было довольно распространено полагаться на людей в ответах на любой вопрос общего знания. Вы знаете, где я могу найти сантехника? Вы знаете, в какое время сегодня закрываются магазины? И список продолжается. Сегодня действительно очень часто приходится полагаться на голосового помощника вашего устройства, чтобы получить ответы на эти вопросы. Мы ожидаем, что «Google it» станет решением практически для чего угодно. Но так ли это? Вы когда-нибудь пытались узнать в Google, какова справедливая арендная плата для города, в котором вы живете или в котором планируете жить?

Вы когда-нибудь пытались узнать в Google, какова справедливая арендная плата для города, в котором вы живете или в котором планируете жить?

Результаты варьируются от цепочек Quora до обзоров некоторых дорогостоящих исследований рынка или, чаще всего, они включают рекламу сайтов аренды. Отсутствие прозрачности, которое все еще сохраняется на рынке аренды, поражает, особенно для тех, кто находится в процессе переезда. То же самое относится к арендодателям и поставщикам жилья. Как они узнают, как правильно установить цену, чтобы они всегда были забронированы, но при этом не устанавливали слишком низкую цену? Поговорив с несколькими менеджерами по работе с клиентами здесь, в HousingAnywhere, мы пришли к выводу, что эта проблема очень реальна как для мелких, так и для крупных поставщиков, и ответов на нее нет.

Поэтому мы решили разработать решение самостоятельно, встав на путь создания первого (действительно) интеллектуального алгоритма ценообразования для рынка аренды. Мы просто не хотели создавать очередную статью о маркетинговых исследованиях или упрощенный калькулятор. Мы хотели создать инструмент, который сообщал бы пользователям, какой будет справедливая арендная плата за определенное объявление (комнату или квартиру) в определенном городе с определенными удобствами в любой момент времени.

Мы хотели создать инструмент, который сообщал бы пользователям, какой будет справедливая арендная плата за определенное объявление (комнату или квартиру) в определенном городе с определенными удобствами в любой момент времени.

Другими словами, мы поставили цель собрать эмпирические знания местного опытного специалиста по рынку и сделать их доступными для всех. Более того, мы стремились извлечь не только некоторые эмпирические знания, но и суть рыночной динамики конкретного города в данный момент времени.

Мы опираемся на большой пул данных, состоящий не только из успешных рыночных транзакций, но, что еще более важно, из неудачных. В исследованиях и анализах есть неявная предвзятость, заключающаяся в использовании победителей (успешных транзакций), но игнорировании тех, которые потерпели неудачу. С другой стороны, в наших базах данных записана многолетняя история взаимодействий между спросом и предложением, как успешных, так и неудачных, в большом пуле европейских городов.

После нескольких месяцев обучения моделям машинного обучения для конкретных городов и еще нескольких месяцев внутреннего тестирования и проверки мы можем сказать, что нам удалось разработать один из самых впечатляющих инструментов, которые когда-либо видел рынок аренды, и мы с гордостью выпускаем его. это для общественности: RentRadar.

Сбор данных и предположения

HousingAnywhere - это платформа самообслуживания, и наша цель - предоставить арендодателям (технологические) инструменты, необходимые им для ведения своего бизнеса. Поскольку мы создавали наш продукт с глобальным видением, у нас есть списки, публикуемые практически во всех уголках земного шара. Самообслуживание также означает, что мы заменили проверку, управляемую людьми, на передовой аппарат технических продуктов, чтобы направлять рекламодателей к созданию высококачественных списков, а также предотвращать появление злоумышленников (мошенников). Хотя человеческая оценка качества листинга также будет ограничена личными предубеждениями, наш пул рыночных взаимодействий предлагает гораздо более широкий набор данных для измерения настроений рынка.

Наша гипотеза состоит в том, что, вообще говоря, справедливая рыночная стоимость - это цена, с которой согласились бы как покупатель, так и продавец, основываясь на информации, предоставленной им обоим. На таком рынке, как наш, где у нас много хорошего предложения, если цена не соответствует качеству недвижимости, ее просто не бронируют. Как это просто. При этом, если арендатор не соответствует требованиям арендодателя, бронирование также не происходит. Ограничив наше обучение всеми объявлениями, получившими хотя бы приглашение к бронированию, нам удалось собрать репрезентативные цены, которые соответствовали последним колебаниям рынка.

Каждое объявление на нашей платформе описывается набором характеристик (местоположение, размер, удобства и т. Д.), Которые прямо или косвенно связаны с окончательной ценой аренды. Не все функции в равной степени способствуют созданию надежной модели, поскольку с точки зрения машинного обучения их важность меняется от города к городу. Мы опросили наших менеджеров по работе с клиентами, чтобы выяснить, какие функции, исходя из их опыта, больше всего повлияли на окончательную стоимость аренды. Наличие кондиционера в арендуемом помещении очень важно (и дорого) в Милане, но вы не увидите запросов на кондиционер в таких городах, как, например, Роттердам или Берлин. Такой исчерпывающий поиск по набору функций можно было бы выполнить автоматически, но для этого потребовалось бы слишком много времени и усилий.

Такой исчерпывающий поиск по набору функций можно было бы выполнить автоматически, но для этого потребовалось бы слишком много времени и усилий.

Однако, как легко догадаться, наиболее важной характеристикой собственности (и той, которая больше всего влияет на ее цену) является ее местоположение. Как вы понимаете, просто использовать широту и долготу без конкретного контекста городской местности - это слишком грубо. Поэтому мы обогатили наши данные информацией, поступающей из внешних источников, чтобы вычислить расстояния до важных мест, таких как станции метро и университеты. С помощью наших менеджеров по работе с клиентами мы нанесли на карту каждый город в виде сетки POI, помня, таким образом, о том, что будет считаться наиболее подходящим для удовлетворения потребностей, которые мы обслуживаем. Это оказалось успешным, поскольку мы заметили, что цены, которые соответствуют этим разделам, лучше, чем более каноническое определение районов.

Повышение деревьев для регресса

Как и в любой задаче регрессии контролируемого обучения, мы должны были определить целевую переменную. Чтобы скорректировать его распределение и учесть различную динамику рынка, мы решили использовать натуральный логарифм единицы плюс сумму ежемесячной арендной платы и счетов (если она еще не включена). Мы решили начать обучение моделей для городов, в которых у нас было больше всего данных и опыта. Каждый набор данных содержал от сотен до тысяч списков, и каждый был описан как минимум 50 различными характеристиками.

Тип данных, которыми мы располагаем, побудил нас использовать усиленные деревья решений для задачи. Мы использовали LightGBM и XGBoost, каждый раз основывая свой выбор на размере набора данных и его конкретном типе функций. В нашей команде уже было несколько успешных реализаций этих моделей, например, чтобы помочь нам защитить нашу платформу от мошенников. Прогноз определяется суммой весов, содержащихся в листьях, достигнутых процессами принятия решений, выполняемыми параллельно (своего рода). Каждый отдельный лист может быть помечен идентификатором, уникальным для каждого отдельного дерева ансамбля. Для упрощения: представьте себе избирательную систему, в которой каждый избиратель несет ответственность за избрание человека только из подмножества кандидатов, близких к его собственной области знаний. Например, люди с экономическим образованием смогут выбрать кого-то только для финансового отдела и так далее. Парламент, в данном случае окончательная предлагаемая цена аренды, будет состоять из всех кандидатов вместе.

Вычисление окончательного прогноза - это вычисление суммы весов, содержащихся в листьях, достигнутых процессами принятия решений, выполняемыми параллельно.

Процесс вычисления цены для листинга можно рассматривать как присвоение разных листьев каждой выборке, предоставленной в качестве входных данных. Каждое обученное дерево фокусируется на различных характеристиках объявления, описывая отдельные аспекты области ценообразования на аренду, такие как местоположение и удобства. Более подробно об этих моделях читайте в нашей статье об интересном способе использовать листья.

Выступления моделей на рынке жилья

Тестирование работоспособности наших моделей тоже не было прогулкой по парку. Не исключены колебания в размере 50–100 евро или даже выше для более дорогих квартир. Это не идеально для вычисления показателей производительности, когда тестовые данные должны быть точными. По этой причине, оптимизируя модели с помощью R2 во время обучения, мы решили еженедельно проверять прогнозы с нашими экспертами. Последнее слово было за ними по поводу наших моделей, иногда они меняли основную истину после просмотра предложений моделей или попытки понять, почему модели неэффективны в некоторых областях. С их помощью мы смогли выявить выбросы в обучающей выборке, а также функции, которые не способствовали описанию динамики рынка.

В конце концов, процесс тестирования Metis (кодовое название технологии, на которой был построен RentRadar) занял более шести месяцев. В течение этого времени наши менеджеры по работе с клиентами использовали его для отслеживания и, при необходимости, изменения цен на объявления на нашей платформе - они заметили, что этот инструмент иногда может давать гораздо более точные предложения по ценам на аренду, чем большинство опытных арендодателей. Сегодня это бесценная технология, которая помогает нам улучшать качество наших услуг. Мы разработали RentRadar, чтобы предоставить нашим пользователям те же самые современные технологии, которые мы используем внутри компании. Делясь своими знаниями и техническими знаниями, мы гордимся тем, что помогаем как арендодателям, так и арендаторам точно оценивать свое арендуемое жилье, и тем самым мы стремимся сделать рынок аренды более прозрачным и более удобным для навигации.

Мы разработали RentRadar, чтобы предоставить нашим пользователям те же самые современные технологии, которые мы используем внутри компании. Делясь своими знаниями и техническими знаниями, мы гордимся тем, что помогаем как арендодателям, так и арендаторам точно оценивать свое арендуемое жилье, и тем самым мы стремимся сделать рынок аренды более прозрачным и более удобным для навигации.

Что на радаре?

RentRadar был выпущен для публики пару недель назад. Запуск этого новейшего инструмента - еще один шаг к расширению возможностей наших пользователей, предоставляя им наилучшие технологии для ведения своего бизнеса или поиска места на HousingAnywhere. Мы уже разрабатываем другие способы использования его в наших потоках продуктов. Арендаторы, просматривающие недвижимость, смогут увидеть рыночную цену на объявления, аналогичные тем, которые им интересны, что позволит им лучше понять справедливость цены. Со стороны арендодателя инструмент предлагает рекламодателям наилучшую возможную цену за листинг с аналогичными характеристиками перед его публикацией, тем самым позволяя им проверить информацию, которую они должны указать для своего листинга.

На более техническом уровне, усердно работая над добавлением большего количества городов в список, мы постоянно улучшаем производительность и надежность инструмента, одновременно исследуя варианты использования более одного алгоритма для каждой модели города. Мы знаем, что с помощью GBDT мы не можем обеспечить соблюдение некоторых хорошо известных характеристик домена. Примером может служить прямая корреляция между некоторыми характеристиками: если все останется прежним, добавление еще одной спальни к квартире увеличит арендную плату. Хотя это не очень очевидно, вы сможете добиться этого с помощью более простых алгоритмов. К сожалению, они не такие мощные, как те, которые мы используем в настоящее время. Создание сильной гибридной модели будет полезно для улучшения согласованности и способности представлять наши рынки. В конечном итоге создание усовершенствованного инструмента даст каждому наиболее надежный ответ на вопрос: какова справедливая стоимость аренды для моего города?

Это сообщение редактировал Джанлука Валентини (вице-президент по корпоративному развитию).