«Данные — это новая нефть». Вы, наверное, слышали это более тысячи раз, но сейчас это более верно, чем когда-либо прежде. Каждая компания и отдельные предприятия собирают всевозможные данные, начиная от самых простых вещей, таких как «сколько раз вы берете трубку в день?», до таких, как «Что вы чаще всего смотрите на Netflix?». Они собирают эти точки данных, чтобы понять множество вещей, от симпатий потребителей до привычек расходов и т. д. Это помогает им ориентироваться на определенный набор клиентов для своих продуктов и увеличивать свои доходы (все дело в $$$).

Часто эти наборы данных выглядят как набор информации, связанной вместе, но важно расшифровать интересные связи между этими точками данных. Это может быть особенно полезно, если вы хотите начать бизнес, но не знаете, кто именно является вашей целевой аудиторией, или если вы просто хотите узнать что-то, что может помочь вам принять некоторые решения, например, где остановиться, что купить и т. д. Вместо того, чтобы просто нацеливаться на случайные группы людей, а затем понимать, что это не моя целевая аудитория, и начинать заново, знание того, «Кто что хотел бы и почему?», определенно поможет.

Я часто сталкиваюсь с людьми, которые соотносят данные декодирования со знаниями в области машинного обучения. Я получаю такие вопросы, как: «Эй, я не знаком с машинным обучением, так как же мне понять, как атрибут А соединяется с атрибутом Б?» Конечно, машинное обучение помогает, но это не должно мешать вам начать изучать данные.

Моя идея этой статьи именно в этом. Единственное, что вам нужно, чтобы начать декодирование данных, — это придумать несколько «интересных» вопросов, на которые вы хотите знать ответ. Часто это сложная часть, но как только вы справитесь с этим, вы лучше поймете, что и как вы можете использовать данные, чтобы ответить на эти вопросы.

Я собираюсь ответить на 4 основных вопроса, которые помогут мне лучше понять данные и дать мне представление о том, что эти данные действительно могут предложить. Как вы увидите, на все вопросы, кроме последнего, можно ответить без машинного обучения.

В этой статье я буду использовать набор данных Airbnb за август 2020 года для города Остин. Давайте начнем!

В. 1. Какие удобства чаще всего предлагает Airbnb в Остине?

Все мы всегда хотим понимать, какие удобства я получу в конкретном доме на Airbnb, если забронирую его. Ну, вот некоторые идеи. Скорее всего, вы найдете эти 15 вещей на большинстве Airbnb в городе Остин. Неудивительно, что большинство предложений Airbnb предлагают Wi-Fi и кондиционер, что является нормой в наше время. Одна из удивительных вещей, которые я вижу в этом сюжете, — это «дружественное рабочее пространство», которое, кажется, предлагают более половины Airbnb в Остине (да ладно, кто действительно хочет работать, когда у них перерыв? трудоголики, которые не отдыхают. Это я? Может быть!). Другие удобства — это те, которые вы ожидаете увидеть, и этот сюжет точно подтверждает это.

В.2. Является ли местоположение основным фактором, влияющим на формирование цен на Airbnb?

Желтые точки на графике показывают Airbnb по цене выше 150 долларов США, тогда как фиолетовые точки показывают Airbnb по цене менее 150 долларов США. Мы видим, что, за исключением нескольких оба цвета сильно накладываются друг на друга, что говорит о том, что, хотя местоположение является фактором, он, безусловно, не является самым важным фактором, связанным с ценой Airbnb (Конечно, удивительно, верно? Мы всегда ожидаем, что в таких районах, как центр города, будут только самые дорогие Airbnbs, именно поэтому данные так важны в наше время.) и мы сможем подтвердить это, когда сделаем некоторый прогноз (Машинное обучение, о котором я говорил в заголовке) цен на последний вопрос.

В.3. Действительно ли люди, которые останавливаются в домах суперхозяев, получают больше удовольствия, чем те, кто этого не делает?

Чтобы ответить на поставленный выше вопрос, важно оценить отношение людей к различным вещам. Как видно из изображения сбоку, суперхозяева преуспевают во всех вещах, которые могли бы улучшить работу людей (коэффициент принятия, скорость отклика и т. д.), и это дополнительно усиливается более высокими рейтингами, которые суперхозяева получить от клиента после того, как они завершили свое пребывание. Средний рейтинг действительно учитывает все, начиная от чистоты, соотношения цены и качества и т. д. Следовательно, по большей части люди, останавливающиеся в домах суперхозяев, имеют лучший опыт и, таким образом, по праву зарабатывают значок суперхозяина.

Q.4 Предскажите, стоит ли Airbnb дорого (> 150 долларов США) или нет, и какие наиболее важные факторы влияют на цену Airbnb? (Извините, один вопрос по ML обязателен! :P)

Это вопрос, который требует машинного обучения, чтобы можно было прогнозировать цены на Airbnb с определенными атрибутами, и, следовательно, мы обучаем модель классификации (в основном то, где нам нужно знать, является ли это «то или это, здесь или там" и т. д. В данном конкретном случае мы хотим знать, будет ли Airbnb дорогим или дешевым. Немного отступив назад, вы можете спросить: "Что такое модель?". По сути, это то, что учится на самих данных и пытается для выявления закономерностей и взаимосвязей между различными точками данных.

Прежде чем показать вам следующее изображение, нужно знать две основные вещи — обучающие данные и тестовые данные. Данные обучения — это в основном данные, которые модель видела, то есть данные, с помощью которых модель учится предсказывать невидимые данные, в то время как тестовые данные — это данные, которые используются для проверки того, как модель фактически работает с невидимыми данными (что имеет место, когда ML модель развернута в реальных сценариях)

Хорошо, это очень странные цифры. Что это означает? Не обращайте внимания на числа, за исключением двух значений точности вверху для целей этой статьи на Medium. Первый в основном означает, что модель может точно предсказать 90,4% случаев, будет ли Airbnb дорогим или нет, на данных, которые она уже видела, в то время как она может предсказать 87% времени на данных, которые она имеет. не видно, что обнадеживает, поскольку это означает, что модель способна обобщать и хорошо прогнозировать даже невидимые данные, что является конечной целью. Существует множество других факторов, таких как кривая ROC и т. д., которые используются для оценки работы модели, но все эти технические детали — для другой подробной статьи на Medium о том, как сравнивать разные модели.

По части 2 вопроса,

Мы получаем это, используя параметры только что обученной модели. Сюжет в основном говорит о том, что такие вещи, как количество спален, минимальное количество ночей, которые человек может провести, а также то, насколько гостеприимен хозяин с точки зрения различных графиков и других изменений, которые могут понадобиться клиенту, являются одними из наиболее важных факторов, которые способствуют Цена. Как мы видели в предыдущем вопросе, несмотря на то, что местоположение важно, оно определенно не входит в пятерку главных факторов. Другие вещи, которые неудивительно важны, включают такие вещи, как тип объекта, количество отзывов, количество удобств, доступность и т. д.

Вывод:

Это были некоторые из вопросов, на которые вы могли ответить для заданного набора данных, получить больше информации и попытаться разобраться в этом. Цель этой статьи также заключалась в том, чтобы показать, что не каждое понимание требует использования машинного обучения (каждый анализ, кроме Q4, не основан на машинном обучении, а анализируется с использованием базовых библиотек Python). Следовательно, незнание машинного обучения не должно останавливать вас от попыток расшифровать данные и извлечь из них ценную информацию.

Надеюсь, вам понравилось расшифровывать некоторые данные вместе со мной!