Пример: анализ данных Airbnb для Сиэтла и Бостона
Анализ данных - это процесс очистки, преобразования и моделирования данных для поиска полезной информации, полезной для принятия бизнес-решений. CRISP-DM - это структурированный подход, который упрощает жизнь специалиста по данным.
«CRISP-DM - это межотраслевой стандартный процесс интеллектуального анализа данных»
Читая дальше, вы получите краткое представление о различных этапах процесса CRISP-DM на основе тематического исследования.
Деловое понимание
Ключевая идея Business Understanding - понять проблему и найти вопросы, на которые вы хотите ответить.
Есть две стратегии решения интересующих вопросов.
- Возможно, у вас нет данных, но у вас могут возникнуть интересные вопросы. В этом случае соберите необходимые данные, чтобы ответить на эти вопросы.
- У вас есть данные, и вы знакомитесь с ними, чтобы задать интересующие вопросы.
Вопросы, представляющие интерес для наборов данных Сиэтла / Бостона, следующие:
- Ожидаемое количество посетителей Сиэтла / Бостона с течением времени (в связи с недоступностью списков)?
- Районы, которые с большей вероятностью будут переполнены / районы, которые с большей вероятностью будут предпочтительнее для посетителей (в зависимости от количества бронирований)?
- Самое загруженное время для посещения Сиэтла / Бостона?
- Сравните среднюю дневную цену объявлений за месяц с течением времени (между двумя городами).
- Спрогнозируйте цены на объявления в Сиэтле / Бостоне
Понимание данных
Теперь у нас есть вопрос, нам нужно переместить его в данные. Найдите столбцы из наборов данных, которые ответят на эти вопросы.
Ниже приведены столбцы, отвечающие на необходимые вопросы:
- property_type, room_type, соседство, почтовый индекс, дата, размещение, ванные комнаты, спальни, кровати, плата за уборку, Instant_bookable, cancellation_policy, цена (столбцы и др.)
Подготовка данных
Необходимо подготовить данные, чтобы у нас были чистые и полные данные для статистического анализа и моделирования.
Подготовка данных включает в себя различные строгие этапы, в том числе следующие:
- Заполнение недостающих данных
- Удаление данных
- Преобразование данных
Статистический анализ
Из статистического анализа мы делаем следующие выводы.
Ожидаемое количество посетителей Сиэтла / Бостона с течением времени (в связи с недоступностью данных о компании)?
Районы, которые с большей вероятностью будут переполнены / районы,
которые будут
предпочтительнее для посетителей (в зависимости от количества бронирований)?
Статистический анализ показал, что район Капитолийский холм был наиболее предпочтительным для посетителей Сиэтла. Что касается Бостона, посетители предпочитали район Олстон-Брайтон.
Самое загруженное время для посещения Сиэтла / Бостона?
Статистический анализ показал, что самое загруженное время для посещения Сиэтла - январь, а для Бостона - в сентябре.
Сравните среднюю дневную цену объявлений за месяц с течением времени (между двумя городами).
Моделирование
Для прогнозирования цены на листинги мы разделяем подготовленные данные на данные для обучения и тестирования. Затем данные обучения используются для построения линейной модели. После этого тестовые данные используются для тестирования линейной модели.
Оценка
Для оценки мы используем оценку в квадрате, чтобы понять, насколько хорошо работает наша модель. Прогноз цен для Сиэтла имеет оценку в квадрате 0,517 по тестовым данным, что выше, чем для Бостона, где оценка в квадрате составляет 0,313. Чем ближе оценка к 1, тем лучше ваша модель соответствует данным.
Развертывание
Развертывание - это этап, на котором мы применяем вывод к нашему Бизнесу. Напомним, что выводы основаны на статистических выводах и прогнозах модели.
Заключение
В заключение, процесс CRIPS-DM - это эффективный способ структурировать анализ данных по наборам данных от малых до больших. В нашем тематическом исследовании данных Airbnb для Сиэтла и Бостона мы представили очень хорошее понимание наборов данных, следуя процессу CRIPS-DM.