Подход CRISP-DM для анализа данных

Пример: анализ данных Airbnb для Сиэтла и Бостона

Анализ данных - это процесс очистки, преобразования и моделирования данных для поиска полезной информации, полезной для принятия бизнес-решений. CRISP-DM - это структурированный подход, который упрощает жизнь специалиста по данным.

«CRISP-DM - это межотраслевой стандартный процесс интеллектуального анализа данных»

Читая дальше, вы получите краткое представление о различных этапах процесса CRISP-DM на основе тематического исследования.

Деловое понимание

Ключевая идея Business Understanding - понять проблему и найти вопросы, на которые вы хотите ответить.

Есть две стратегии решения интересующих вопросов.

Возможно, у вас нет данных, но у вас могут возникнуть интересные вопросы. В этом случае соберите необходимые данные, чтобы ответить на эти вопросы.
У вас есть данные, и вы знакомитесь с ними, чтобы задать интересующие вопросы.

Вопросы, представляющие интерес для наборов данных Сиэтла / Бостона, следующие:

Ожидаемое количество посетителей Сиэтла / Бостона с течением времени (в связи с недоступностью списков)?
Районы, которые с большей вероятностью будут переполнены / районы, которые с большей вероятностью будут предпочтительнее для посетителей (в зависимости от количества бронирований)?
Самое загруженное время для посещения Сиэтла / Бостона?
Сравните среднюю дневную цену объявлений за месяц с течением времени (между двумя городами).
Спрогнозируйте цены на объявления в Сиэтле / Бостоне

Понимание данных

Теперь у нас есть вопрос, нам нужно переместить его в данные. Найдите столбцы из наборов данных, которые ответят на эти вопросы.

Ниже приведены столбцы, отвечающие на необходимые вопросы:

property_type, room_type, соседство, почтовый индекс, дата, размещение, ванные комнаты, спальни, кровати, плата за уборку, Instant_bookable, cancellation_policy, цена (столбцы и др.)

Подготовка данных

Необходимо подготовить данные, чтобы у нас были чистые и полные данные для статистического анализа и моделирования.

Подготовка данных включает в себя различные строгие этапы, в том числе следующие:

Заполнение недостающих данных
Удаление данных
Преобразование данных

Статистический анализ

Из статистического анализа мы делаем следующие выводы.

Ожидаемое количество посетителей Сиэтла / Бостона с течением времени (в связи с недоступностью данных о компании)?

Районы, которые с большей вероятностью будут переполнены / районы,
которые будут
предпочтительнее для посетителей (в зависимости от количества бронирований)?

Статистический анализ показал, что район Капитолийский холм был наиболее предпочтительным для посетителей Сиэтла. Что касается Бостона, посетители предпочитали район Олстон-Брайтон.

Самое загруженное время для посещения Сиэтла / Бостона?

Статистический анализ показал, что самое загруженное время для посещения Сиэтла - январь, а для Бостона - в сентябре.

Сравните среднюю дневную цену объявлений за месяц с течением времени (между двумя городами).

Моделирование

Для прогнозирования цены на листинги мы разделяем подготовленные данные на данные для обучения и тестирования. Затем данные обучения используются для построения линейной модели. После этого тестовые данные используются для тестирования линейной модели.

Оценка

Для оценки мы используем оценку в квадрате, чтобы понять, насколько хорошо работает наша модель. Прогноз цен для Сиэтла имеет оценку в квадрате 0,517 по тестовым данным, что выше, чем для Бостона, где оценка в квадрате составляет 0,313. Чем ближе оценка к 1, тем лучше ваша модель соответствует данным.

Развертывание

Развертывание - это этап, на котором мы применяем вывод к нашему Бизнесу. Напомним, что выводы основаны на статистических выводах и прогнозах модели.

Заключение

В заключение, процесс CRIPS-DM - это эффективный способ структурировать анализ данных по наборам данных от малых до больших. В нашем тематическом исследовании данных Airbnb для Сиэтла и Бостона мы представили очень хорошее понимание наборов данных, следуя процессу CRIPS-DM.