В анализе задействован Сиэтл, Вашингтон, США, набор данных Airbnb.

Введение

Даже если существует множество онлайн-платформ, которые борются за лучший сервис и цену, поиск желаемого жилья с хорошим соотношением цены и качества сложно и требует много времени.

Цель этой статьи - выделить и четко разграничить анализ ценовых предложений, как туристы могут провести свой отпуск, с помощью тематического исследования в США, особенно в лучших районах Сиэтла за небольшие деньги (Airbnb).

В связи с экономическим ростом, глобализацией и любопытством, которое мотивирует людей путешествовать / изучать новые культуры и расширять свой кругозор, за последние годы резко возросло количество поездок за границу, а также в свою собственную страну.

В этой статье будут рассмотрены возможности проживания в лучших районах за небольшие деньги, например, бюджетный отдых.

Вопрос в том, тратили ли вы много часов на то, чтобы выбрать между стоимостью аренды на время отпуска в отеле или домом для отпуска? В течение нескольких часов онлайн-сайты ищут различные варианты жилья, сравнивают цены и спрашивают себя, стоит ли мне платить больше за особенно хороший район рядом со всеми туристическими достопримечательностями, или мне следует выбрать что-то более дешевое вдали от центра города?

Поэтому, чтобы изучить потенциальные экономические затраты и выгоды, я использовал данные Airbnb, чтобы глубоко погрузиться в мир цен и жилья в Сиэтле, штат Вашингтон, США.

«Какие факторы сильно влияют на цены на дома для отдыха в Сиэтле?»

1. Как тип недвижимости влияет на цену?

2. Как соседство влияет на цену?

3. Насколько точно можно спрогнозировать стоимость помещения?

Часть 1. Как тип недвижимости влияет на цену?

Бевор, внимательно изучив различные цены для каждого типа аренды, необходимо изучить распределение цен в Сиэтле.

На рисунке показано, что цена обычно распределяется с небольшим количеством выбросов. Если мы посмотрим на таблицу ниже, то увидим, что совокупный ценовой диапазон простирается от минимум 20 $ до максимум 1000 $. Несмотря на то, что среднее значение составляет 128 долларов США, стандартное отклонение составляет 90 долларов США.

Этот анализ показывает, что действительно существуют разные составы цен, и каждый может найти что-то для каждого, имеющего бюджет. Однако мы не можем узнать, за какое именно жилье вы платите? Наверное, палатка? Хотя вы действительно хотите сэкономить деньги, вы не хотите делать это любой ценой.

Обращаясь к рисунку выше, мы видим, что почти все объекты недвижимости имеют широкий диапазон цен от очень низких до очень высоких. Тем не менее, квартиры и дома имеют наибольшую разницу при сравнении минимальной и максимальной цены. Одно из возможных объяснений может заключаться в том, что квартиры и дома также являются наиболее популярными типами аренды, как и другие виды собственности.

Из-за выбросов трудно оценить общие цены на разные виды аренды в Сиэтле. По этой причине, посмотрев на таблицу под (режим: цена, которая появляется чаще для каждого жилья), вы обнаружите, что цены в целом остаются «умеренными», особенно для дорогих типов недвижимости, таких как квартиры и дома.

Часть 2. Как соседство влияет на цену?

Если вы посмотрите на приведенный ниже рисунок («Листинговая цена в районе»), оценивающий распределение цен в различных областях, можно ясно увидеть, что диапазон цен в большинстве областей огромен. Что особенно заметно, так это то, что такие огромные различия в ареале наиболее подвержены влиянию таких огромных различий в области, как залив Портидж, Юго-Восточная Магнолия и Вестлейк.

На следующем этапе этого анализа для простоты этот документ будет сосредоточен на первой десятке самых дорогих областей (с использованием среднего значения для выбора), а также на двух типах аренды, таких как квартиры и дома, поскольку они являются наиболее популярными для сдачи в аренду. .

На двух графиках представлена ​​информация о минимальных и максимальных ценах на дома и квартиры в десятке самых дорогих районов. Сравнивая эти два значения, становится ясно, что минимальная цена домов намного выше, чем минимальная цена квартир. Очень интересно то, что если вы посмотрите на максимальную цену между домами и квартирами, вы обнаружите, что дома остаются более дорогими в большинстве районов по сравнению с квартирами.

Ниже максимальных цен выделены случаи, когда квартиры превосходят дома, например, Windermere или Briarcliff.

Ответ для экономных отдыхающих - да, можно остановиться в лучшем районе за небольшие деньги, чем вы думали, если, например, вы выбираете квартиру в том же районе, что и другой дом.

Часть 3. Насколько хорошо мы можем предсказать цену на помещения?

На цену помещения влияют разные факторы. Однако, наверное, самый важный вопрос - как мы можем использовать эту информацию? Какие преимущества от этого получит бизнес. Как ведущего вы почти интересовались темой: Адекватна ли моя цена? Я ниже или слишком выше обычных цен на эквивалентную недвижимость?

Прогноз - это один из способов автоматически оценить правильную цену с учетом различных факторов. По этой причине я построю модель с использованием линейной регрессии, чтобы найти зависимости между ценой и другими факторами, которые могут на нее повлиять.

Прежде чем приступить к построению модели, необходимо определить, какие функции мы будем использовать для обучения. Использование всех из них - вариант, но все же это не гарантирует вам, что вы получите лучшую модель. Почему ? Потому что это увеличивает размеры, а также время обучения.

Поэтому мы начинаем с изучения числовых переменных в нашем наборе данных. В этом случае рекомендуется посмотреть на тепловую карту.

Поскольку основным моментом этого проекта является цена, мы рассмотрим взаимосвязь между ценой и другими характеристиками в наборе данных. Матрица показывает, что цена сильно коррелирует с жилыми помещениями, ванными комнатами, спальнями, кроватями и квадратными футами. Да, кажется естественным, что вам придется платить больше за дополнительные услуги.

Тем не менее отзывы негативно влияют на динамику цен. Решить эту проблему можно будет с помощью анализа настроений, чтобы выяснить, положительные или отрицательные отзывы. В рамках данного проекта эта часть не покрывается.

Более того, выбор функций основан на матрице тепловой карты, а также на приведенном выше анализе. К сожалению, 75% ресурсов не содержат информации о квадратном фиде. Таким образом, в этом случае не рекомендуется использовать или выбирать эту функцию для обучения.

Чтобы построить и затем правильно проанализировать модель, необходимо разделить набор данных на обучающие и тестовые данные (70% и 30%). Для оценки производительности я буду использовать метрики R в квадрате и MSE. R в квадрате измеряет степень соответствия линейной регрессии и находится между 0 и 1 (1 для хорошей связи, в противном случае 0). Кроме того, я буду использовать MSE (среднеквадратичную ошибку), чтобы исследовать дисперсию и систематическую ошибку модели.

Обращаясь к модели, сравнивая два набора данных ниже, мы видим, что тестовый набор немного превосходит обучающий набор, сравнивая R в квадрате 0,57 и 0,56 соответственно. В целом, обучающий набор показывает, что он имеет большую дисперсию (обучение содержит цену в 1000 долларов за аренду) в качестве набора тестов, который объясняет разницу.

Однако в случае MSE он выше для тестовых данных (3636), чем для обучающих данных (3425), что указывает на то, что модель переобладает обучающими данными.

Таким образом, для будущих исследований необходимо поэкспериментировать с другими типами регрессии, например. RANdom SAmple Consensus, обработка данных и выбор функций.

Заключение

В этой статье мы более подробно рассмотрели различные составы цен в зависимости от типа аренды и района Сиэтла.

1. Мы изучили различные цены на недвижимость и пришли к выводу, что для всех типов аренды есть предложение получить что-то для любого бюджета.

2. Кроме того, мы исследовали сочетание цены, типа аренды и района проживания и четко обнаружили, что цена на дома почти выше, чем на квартиры. Тем не менее, даже в этих районах можно снять дом и отдохнуть по выгодной цене в лучших районах Сиэтла.

3. Наконец, мы разработали модель линейной регрессии, чтобы сделать лучший прогноз цен. Вкратце: результаты модели линейной регрессии показывают, что даже несмотря на то, что модель работает нормально для более низких цен, она затрудняется с предсказанием более высоких цен. Принимая это во внимание, необходимо провести другие дальнейшие эксперименты и исследования, чтобы улучшить модель.

Вышеупомянутые результаты и другие факторы, такие как размер собственности, а также удобства, не были включены в это исследование. Таким образом, необходимо продолжить дальнейший анализ потенциальных экономических затрат и выгод для домовладельцев, с одной стороны, и с другой стороны, чтобы не только привлечь туристов в арендовать жилье на время отпуска, но и предложить им « соотношение цены и качества аренды».

Поскольку приведенный выше анализ не охватывает все части, связанные с отпуском, есть еще вопросы, на которые нужно ответить, например:

Почему некоторые объекты недвижимости настолько невероятно дороги?

Чтобы узнать больше об анализе, не стесняйтесь исследовать, используя ссылку на мой Github здесь.