Airbnb считается одной из крупнейших гостиничных сетей во всем мире, однако ей не принадлежит ни одного отеля. Это инновационное приложение вышло в 2008 году с довольно умной бизнес-моделью. Он связывает путешественников с хозяевами, которые хотят сдать свою недвижимость в аренду на определенное время, что является отличной альтернативой традиционным отелям и удобным способом дополнительного заработка для владельцев недвижимости.

У компании есть веб-сайт под названием Inside Airbnb, где данные о списках недвижимости находятся в свободном доступе для использования, что полезно для проектов и решений Data Science. После анализа набора данных со списками для города Сидней можно было выявить некоторые тенденции, и полученные выводы будут представлены в этой статье. Анализ начался не с большого волнения, но, к счастью, ближе к концу он стал убедительным.

Первое сделанное открытие было довольно разочаровывающим. Переменные в наборе данных не имели никаких интересных корреляций. Это было измерено с помощью корреляционной матрицы, построенной в виде тепловой карты.

Все это изображение говорит нам о том, что общее количество отзывов об объекте связано с тем, сколько отзывов оно получает в месяц и сколько отзывов получает каждый год. Как очевидно. Эти три функции несколько избыточны, при желании мы могли бы избавиться от них и оставить только одну, упростив набор данных. Это ускорит алгоритмы машинного обучения, если мы захотим их использовать, но это тема для другой статьи.

Первое интересное открытие касалось минимальной продолжительности пребывания в списках недвижимости в Сиднее. Среднее значение было 61, а медиана — 90. Несмотря на то, что медиана довольно далека от среднего значения, это показывает, что, как правило, сиднейские Airbnb являются долгосрочными. Это действительно интересное открытие, так как большинство предложений в городе предназначены для долгосрочной аренды, а не для отдыха.

Кроме того, было обнаружено, что большинство списков Airbnb для выбранного города — это целые дома и квартиры. Это также согласуется с гипотезой о том, что большинство объявлений предназначены не для отдыхающих, а для людей, ищущих долгосрочную аренду.

# list how many listings for each property type
df_clean.room_type.value_counts().sort_values(ascending=False)
Entire home/apt    11470
Private room        6907
Shared room          334
Hotel room           136
Name: room_type, dtype: int64

И последнее, но не менее важное: самое убедительное открытие касалось самых дорогих местоположений в наборе данных. Можно заметить, что в целом прибрежные районы дороже, и что самые дорогие объявления находятся в районе, называемом северными пляжами Сиднея. Это настолько интересное и впечатляющее открытие, что современный рынок, работающий в основном онлайн, ведет себя аналогично многовековому сиднейскому рынку недвижимости.

В заключение можно увидеть, что с помощью неглубокого исследовательского анализа можно получить много идей. Это демонстрирует, насколько мощной является наука о данных, что, безусловно, станет темой для многих других статей. Если вы хотите взглянуть на полную записную книжку для этого анализа, вы можете найти ее прямо здесь: Sydney Airbnb Analysis Notebook.

Спасибо за чтение :)

Подпишитесь на меня в LinkedIn, чтобы узнать больше о Data Science: LinkedIn

Не стесняйтесь взглянуть на другие мои проекты: GitHub