[Этот проект был выполнен в рамках 12-недельной стипендиальной программы по науке о данных в Eskwelabs. Вы можете найти файлы этого проекта на моем GitHub, а слайды - здесь. Окончательный проект доступен здесь (интерактивное веб-приложение). Живую презентацию можно посмотреть здесь.]

В прошлом году, как и большинство других предприятий, Airbnb был потрясен COVID-19. Несколько новостей о будущем Airbnb озаглавили несколько статей, поскольку большое количество отмен и медленное бронирование привело к огромной потере доходов во всем мире, но еще более ужасающим является положение его хозяев.

При нынешней ситуации крах стартапов был преобладающим во время пандемии. Количество бронирований на Airbnb упало более чем на 70%, а его оценка снизилась вдвое.

После пандемии появление динамического ценообразования стало бизнес-стратегией выживания. Таким образом, наш проект направлен на предоставление стратегии ценообразования на основе данных путем:

  1. Выявление факторов, влияющих на цену объявлений
  2. Обучите модель машинного обучения, которая определяет систему ценообразования для хостов PH Airbnb, чтобы оптимизировать их листинговую цену.

Сбор данных и информация

Мы собрали данные с помощью Selenium и BeautifulSoup, поскольку у Airbnb еще нет собственного API. Сложность очистки общедоступных данных на их веб-сайте заключается в том, что вы никогда не узнаете, когда элементы меняются или обновляются. Так что, если вы хотите провести подобное исследование, всегда обращайте внимание на эту часть.

Полученные данные содержат доступные объявления Airbnb вместе с их подробной информацией, начиная от цены и заканчивая различными типами собственности, а также анализ близости, который представляет собой рассчитанное расстояние от объявления Airbnb до пространственного объекта. например, если объект находится рядом с аэропортом, супермаркетом или другими объектами Airbnb и т. д.

Исследовательский анализ данных

На Филиппинах есть 11 409 объявлений. Большинство объявлений расположено вдоль побережья. Провинции, в которых нет предложений Airbnb, - это Тави-Тави, Сулу и Басилан. Эти провинции находятся в южной части Филиппин, где войны в основном распространены.

fig, ax = plt.subplots(figsize=(8, 6)) sns.distplot(df['price_per_night'], color='#ff5a5f', ax=ax) plt.title("Distribution of Price per Night (in PHP)") plt.ylabel('Frequency') plt.xlabel("Price per night (in PHP)")

Ниже приведены 5 самых дорогих и наименее дорогих типов Airbnb

Соотношение удобства и цены

Модель

Мы использовали несколько регрессионных и древовидных моделей, и XGBoost оказался на первом месте, как показано в таблице ниже. Мы использовали HyperOpt в XGBoost, чтобы получить оптимальные гиперпараметры для модели.

«Гиперпараметр оптимизация - это наука о настройке или выборе наилучшего набора гиперпараметров для алгоритма обучения. Набор оптимальных гиперпараметров имеет большое влияние на производительность любого алгоритма машинного обучения. Это один из самых трудоемких, но решающих этапов обучения машинному обучению ».

Чтобы узнать больше о Hyperparamater Optimization, нажмите здесь. Есть много статей о Medium и объяснений в Интернете относительно HyperOpt о том, как, когда и зачем использовать HyperOpt.

Полный код нашей модели XGBoost можно найти на GitHub здесь, а также вы можете проверить все модели, которые мы использовали здесь .

Мы также развернули интерактивное приложение на Heroku по адресу airbnbphpricing.herokuapp.com/.

Если вы предпочитаете читать только сводку этого анализа, файл в формате PDF доступен для просмотра здесь: https://bit.ly/3eWqjUq.

Заключение

Основываясь на наших выводах, во-первых, чем больше, тем веселее!

При использовании теста корреляции Пирсона количество гостей имеет самую сильную связь с ценой за ночь. Наряду с этим наша модель также предполагает, что это главный предсказатель цен Airbnb. По мере увеличения количества гостей, как правило, увеличивается и цена. Мы рекомендуем увеличить количество гостей, добавив больше кроватей.

Во-вторых, Пространство особенное!

Среди пространственных характеристик, которые мы добавили в результате нашего анализа близости, расстояние от аэропорта является наиболее коррелированной характеристикой с ценой за ночь, а также важным прогнозирующим фактором для ценообразования. Большинство списков расположены рядом с береговой линией и далеко от аэропортов. В этих объявлениях, как правило, более высокая цена за ночь по сравнению с теми, которые находятся за пределами береговой линии. Квартиры рядом с береговой линией создают туристическую атмосферу, которая придает дополнительную ценность собственности.

В-третьих, Вы попали в нужное место!

У Batangas самая самая дорогая средняя цена за ночь, за ней следуют Bataan, Marinduque, Batanes и Zambales. Одна вещь, которую мы заметили, заключается в том, что медианные цены на материковом Лусоне, как правило, выше по сравнению с Висайскими островами и Минданао. Кроме того, по сравнению с остальной частью материковой части Лусона, медианные цены в НКР, как правило, ниже.

Наконец, удобство - это необходимость!

Наиболее распространенные удобства, которые должен иметь хозяин Airbnb, - это кондиционер, Wi-Fi, парковка и место для хранения одежды. Редкая услуга, которая может помочь повысить цены, - это настольные игры для ваших гостей. Еще одно удивительное удобство - это добавление гриля, так как это помогает повысить цену из-за его положительной корреляции с ценой. Чайник, посуда, аптечки первой помощи и гигиенические наборы - это удобства, которые хозяин может легко предоставить, что также может повысить стоимость. Вложения в фен, утюг, микроволновую печь и предоставление завтрака вашим гостям также являются рекомендуемыми способами увеличения цены на листинге.

Дальнейшие действия…

  • Узнайте больше и добавьте дополнительные функции, такие как цена за дополнительного гостя, плата за уборку, плату за обслуживание, а также минимальный и максимальный срок проживания, поскольку эти данные различаются в зависимости от объявления.
  • Дополните модель, добавив обзоры для анализа настроений.
  • Включите изображения в модель с помощью нейронных сетей, поскольку рекламируемые изображения влияют или побуждают гостей бронировать

Соавторы этого проекта:

Тайрон Рекс Фраго: https://www.linkedin.com/in/tyronrexfrago/

Эдвард Натаниэль Апостол: https://www.linkedin.com/in/edward-apostol/

Джонари Вергара: https://www.linkedin.com/in/jonarie-vergara/