Этот пост пытается предсказать успешные списки Airbnb.

Индустрия аренды жилья для отдыха имеет жесткую конкуренцию. В этом посте будет использоваться набор данных из почти 4000 объявлений в районе Сиэтла, чтобы предсказать успешные объявления.

Интересуют следующие вопросы. Оставляют ли арендаторы Airbnb плохие отзывы о объявлениях, требующих высоких комиссий? Арендуют ли арендаторы Airbnb более дешевые квартиры больше, чем дорогие? И, наконец, как владельцы Airbnb могут сохранить свои объявления занятыми?

Набор данных

Набор данных, предоставленный Airbnb, состоит из 3818 объявлений с 92 атрибутами (или потенциальными функциями, используемыми для прогнозирования). Сначала мы запускаем матрицу корреляции, чтобы увидеть, имеют ли какие-либо непрерывные переменные в наборе данных интересные корреляции; имея в виду, что корреляция не выводит причинно-следственную связь.

Как показано в приведенной ниже матрице корреляции, есть некоторые интересные переменные отсутствия корреляции , на которые следует обратить внимание.

Нет никакой корреляции между ценой листинга и оценками в обзорах. Это говорит о том, что положительные отзывы не зависят от дороговости сдаваемого в аренду дома или квартиры (включая плату за уборку, плату за охрану и т. д.). Поэтому люди не дают плохих отзывов только потому, что платят больше. Также нет корреляции между наличием номеров и ценой на листинге, что говорит о том, что дешевые номера бронируются не чаще, чем дорогие.

Как и ожидалось, мы видим сильную корреляцию между некоторыми переменными. Например, цена сильно коррелирует с количеством доступных кроватей, а также с количеством людей, которые могут разместиться в квартире.

Предсказание

Как показано ниже, средняя заполняемость объекта в следующем 30-дневном окне составляет 44%. Медиана, однако, составляет всего 33%, поэтому данные искажены правильно, поскольку многие владельцы имеют дело с коэффициентами заполняемости, намного ниже среднего.

Чтобы предсказать уровень занятости, давайте сначала посмотрим на распределение переменной ответа. График распределения ясно показывает, что некоторые владельцы очень успешны; в том, что они забронированы на 100%, а другие полностью свободны.

После адаптации к мультиколлинеарности мы разделили данные на обучающие и тестовые наборы данных. Когда мы применяем модель линейной регрессии для прогнозирования заполняемости, мы получаем плохой прогноз (R-квадрат равен 0,27). Это означает, что только 27% изменчивости коэффициента занятости можно объяснить предсказаниями модели.

Это очень ненормальное распределение. Объявления часто заняты либо на 0%, либо на 100%.

Мы можем изменить нашу переменную «Уровень занятости» следующим образом: любой листинг с коэффициентом заполняемости менее 50% устанавливается равным 0, а любой листинг более 50% устанавливается равным 1. Затем мы попытаемся предсказать неудачу (0) успех (1) вместо этого использовать модель логистической регрессии, поскольку успех кажется бинарным.

Теперь мы предсказываем, будет ли владелец «успешным» или «неуспешным» в аренде своей квартиры.

Матрица путаницы (внизу слева) показывает, что мы можем предсказать успешных арендодателей с точностью 54 %, а неуспешных арендодателей — с точностью 67 %. Распределение прогнозов (ниже среднего) указывает на некоторую случайность в способности модели предсказывать успешность.

Однако, поскольку модель лучше прогнозирует «неудачную» заполняемость, мы можем сделать вывод о некоторых вещах, которых следует избегать нашим арендодателям. Отрицательные значения, показанные ниже, являются наиболее важными переменными для прогнозирования нулевого уровня занятости.

Район Магнолия, списки отелей типа «постель и завтрак» и Лейк-Сити — это три основные переменные, которые могут привести к тому, что ваш Airbnb не будет сдан в аренду.

С положительной стороны, если вы живете в районе Каскад и планируете сдавать его в аренду на Airbnb, то у вас есть хорошая возможность для стабильного дохода!

Ссылка на код ниже:

https://github.com/bystatsig/Airbnb_Project