Анализ открытых данных Airbnb по методологии CRISP-DM

В настоящее время я учусь на наностепени Udacity Data Scientist for Enterprise. В качестве одного из проектов я проанализировал Сиэтл, Airbnb, Открытые данные с использованием методологии CRISP-DM. Здесь я хочу поделиться с вами результатами анализа.

После предварительного анализа данных я решил ответить на следующие вопросы:

  • Есть ли какая-либо сезонная динамика цен на жилье Airbnb в Сиэтле? Когда самые дорогие и самые дешевые часы для посещения Сиэтла?
  • Как цены на жилье Airbnb различаются в разных районах?
  • Каковы наиболее важные факторы, влияющие на цену объявлений Airbnb?

Вот результаты моего анализа.

Вопрос 1: Сезонный тренд цен

Чтобы понять сезонную тенденцию цен, я сначала нарисовал среднюю цену всех объявлений за день.

Как видим, график сильно колеблется. Так как он также показывает колебание цен из-за выходных. Цены на отели и проживание выше по выходным и ниже по будням в большинстве мест. Так что это неудивительно. Чтобы устранить это колебание, я построил скользящую среднюю за 7 дней.

Здесь мы можем ясно видеть, что средняя цена всех объявлений самая высокая с июля по сентябрь и самая низкая с января по март.

Я также построил график с ценами на все объявления за месяц.

Это также показывает ту же тенденцию, что еще раз подтверждает наше вышеуказанное наблюдение. С июля по сентябрь — самое дорогое время, а с января по март — самое дешевое.

Вопрос 2 : Динамика цен по районам

Сначала я проверил количество объявлений в каждом районе.

Capitol Hill и Downtown имеют наибольшее количество объявлений.

Затем я построил гистограмму средней цены объявлений по районам.

Я также построил график цен на объявления по районам. Чтобы исключить крайние выбросы, я рассматривал на этом графике только цены до 600 долларов.

Мы видим, что оба графика дают почти одинаковую информацию. Самые дорогие районы — Даунтаун, Магнолия, Королева Анна, Каскад и Западный Сиэтл.

Вопрос 3: Факторы, влияющие на цену

Чтобы понять наиболее важные факторы, влияющие на цены объявлений, я решил построить модель машинного обучения для прогнозирования цен. Сначала мне нужно было очистить и подготовить данные для ввода в любую модель машинного обучения. Затем я построил модель машинного обучения и оптимизировал ее. Поскольку модель дала удовлетворительные результаты, я приступил к построению 25 наиболее важных характеристик настроенной модели.

Наиболее важными характеристиками при определении цены являются спальни, жилые помещения, ванные комнаты, кровати и гости. Все эти функции на самом деле указывают на размер листинга, и все они связаны друг с другом. В доме с большим количеством спален, очевидно, будет больше ванных комнат и спальных мест, и в нем может разместиться большее количество гостей. Такой листинг, очевидно, будет иметь более высокую цену.

Тип номера также является важной характеристикой, что также имеет смысл. Цены на весь дом/квартиру будут выше, чем на отдельные комнаты, которые, в свою очередь, будут выше, чем на общие комнаты.

Количество отзывов в месяц тоже важно. Чем больше отзывов в месяц, тем больше заполняемость в месяц, что обычно приводит к повышению цены.

Широта и долгота также являются важными характеристиками, обозначающими местонахождение листинга. Мы уже знаем из вопроса 2, что соседство играет важную роль в определении цен.

Я также построил гистограмму 20 наиболее важных удобств отдельно.

Наиболее важными удобствами, влияющими на цену, являются семейный/детский подход, телевизор, внутренний камин, лифт в здании, гидромассажная ванна, тренажерный зал и кухня.

Окончательные выводы:

  • Цены на жилье Airbnb в Сиэтле самые высокие с июля по сентябрь. Самое дешевое время — начало года с января по март.
  • Самые дорогие районы Сиэтла — это Даунтаун, Магнолия, Королева Анна, Каскад и Западный Сиэтл.
    Капитолийский холм и центр города имеют наибольшее количество объявлений.
  • Наиболее важными характеристиками, влияющими на цену жилья Airbnb в Сиэтле, являются спальни, жилые помещения, ванные комнаты, кровати (с указанием размера жилья). Тип комнаты (квартира/дом целиком, отдельная комната или общая комната) и отзывы в месяц (с указанием уровня заполняемости) также являются важными характеристиками. Широта и долгота (указывающая местоположение) также играют важную роль.
    Наиболее важными удобствами, влияющими на цену, являются: Подходит для семей/детей, Телевизор, Камин в помещении, Лифт в здании, гидромассажная ванна, тренажерный зал и кухня.

Интересно, что я смог ответить на первые 2 вопроса, не строя никакой модели, а просто проанализировав данные.

Я проанализировал данные Сиэтла. Но открытые данные Airbnb используют тот же формат и для других городов. Таким образом, те же принципы и код можно применить к набору данных Airbnb по любому другому городу.

Весь мой подробный анализ и код доступны на Github.