Для тех из вас, кто размещает свой красивый коттедж или свободную спальню в своей квартире на Airbnb, что принесет вам успех?

Мы все знаем, что рейтинги являются главным приоритетом для любого поставщика или поставщика услуг в привлечении растущего числа клиентов, но что стоит за хорошим рейтингом, особенно для Airbnb, в котором каждое объявление настолько уникально с точки зрения его местоположения, типа предоставленной комнаты/кровати, цена, плата за уборку, правила отмены бронирования и другие особенности клиентского опыта. Достаточное количество посредственных или плохих отзывов может действительно подорвать успех листинга, в то время как постоянные и высокие оценки в большом объеме могут позволить листингу продать себя без особого труда.

Чтобы глубже погрузиться в этот большой вопрос, я решил просмотреть данные из списков Airbnb в Сиэтле за 2016 год. Поскольку было сообщено чуть более 3100 объявлений, данных было достаточно, чтобы протестировать лишь небольшое количество из 36 функций, представленных в данных. , все из которых могут или не могут играть роль в определении рейтинга листинга.

Прежде чем приступить к этому анализу, я подумал, что, возможно, все, что имеет денежную оценку или связано с качеством удобств, в наибольшей степени способствует высокому рейтингу. Я решил посмотреть на эти функции, а также на функции, включая время отклика хоста. Некоторые функции содержали много отсутствующих данных, поэтому, пытаясь получить как можно больше информации из данных, я создал новые функции или фиктивные переменные, чтобы указать, какие строки имеют нулевые значения или отсутствующие данные в данном столбце.

После очистки данных и применения модели линейной регрессии scikit-learn, включая и исключая новые и существующие функции, изменяя способ заполнения нулей функцией fillna панды, максимальное значение R-квадрата, которое я мог достичь, было 0,039. Другими словами, эта модель не может много сказать о прогностической ценности каждого признака с точки зрения рейтинга, но все же имеет некоторую ценность в определении того, какие ТИПЫ признаков кажутся наиболее заметными.

Как видите, к моему удивлению, наиболее важными характеристиками оказались время отклика хоста и тип свойства. Признаки с самым низким уровнем прогнозирования — это именно то, что я предсказывал как более заметное:

И, наконец, как видно, включение фиктивных переменных для любых NaN или отсутствующих значений в строке, по-видимому, не добавляет никакой ценности модели, поскольку они практически не имеют предсказательной силы.

Хотя это всего лишь поверхностный анализ наиболее существенных особенностей того, что делает листинг высоко оцененным, это хорошая мотивация для будущих анализов, которые могут более подробно изучить эти более предсказуемые функции и посмотреть, как они могут повлиять на рейтинг листинга. Модели НЛП также могут быть интересным следующим шагом для определения причин чьего-либо высокого или низкого рейтинга.