Обзор

Визуализация данных — это красиво, но может разочаровать, когда вы изо всех сил пытаетесь просто изменить положение легенды на своем графике.

Визуализация данных в целом преследует две цели:

  • Предоставление информации для специалиста по данным, чтобы направить его к скрытым жемчужинам в его наборе данных.
  • Общение с любым человеком, который не является специалистом по данным

Эти две цели требуют разных типов участков, несмотря на тесную связь. Обычно выходные данные первой фазы являются входными данными второй, но в большинстве случаев специалисты по данным просто используют одни и те же графики в обоих случаях. В этом окончательном руководстве мы узнаем, как мы можем пойти с первой частью процесса EDA, чтобы преобразовать его из просто случайного процесса в структурированный и осмысленный.

До начала

Приступая к исследовательскому анализу данных (EDA), крайне важно начать процесс с определения цели исследования.

Целью может быть увеличение продаж, поиск интересных материалов и даже быстрый обзор данных. Цель — это ваш компас, и если вы ее забудете, вы быстро окажетесь в никуда.

Вторая по важности часть — разбить процесс исследования на части. Эти части представляют собой вопросы, которые, по вашему мнению, могут помочь вам достичь цели.

Случайное исследование: навигация по неизвестному

Для осмысления данных необходимо предварительно ознакомиться с его характеристиками. Начните с создания блокнота, посвященного исключительно случайным исследованиям.

По мере изучения данных вы будете сталкиваться с вопросами, которые соответствуют вашим целям. Не забудьте задокументировать эти вопросы для дальнейшего использования.

Исследование можно разделить на три части в зависимости от количества задействованных переменных. Начните с понимания природы отдельных столбцов с помощью гистограмм.

Затем изучите отношения между парами переменных, используя столбчатые, линейные и точечные диаграммы.

Наконец, проанализируйте отношения, включающие три переменные, с помощью тепловых карт, точечных диаграмм с переменными размерами и мультиграфиков.

На протяжении всего исследования сохраняйте сосредоточенность и делайте заметки о своих наблюдениях. Всегда помните о своей конечной цели, поскольку данные можно исследовать бесчисленными способами. Что действительно важно, так это цель, которую вы стремитесь достичь.

Структура: соединение точек

Теперь вы можете начать новую записную книжку со всеми вопросами, которые вы получили на предыдущем этапе.

Вам предстоит пройти три этапа:

1- Какие столбцы могут помочь мне ответить на этот вопрос?

2- Как они собираются это сделать?

Иногда вы можете найти много столбцов, которые имеют отношение к вашему вопросу. Здесь вы начинаете искать закономерности.

Большинство специалистов по данным начинают рисовать сложные графики на этом этапе, пытаясь увидеть как можно больше. В конечном итоге они не уверены в том, что происходит в сюжете, глядя на него в надежде, что он скажет что-то полезное.

Мой совет — максимально упрощайте. Простые вопросы и простые отношения могут привести к большим открытиям

Здесь важно помнить одно правило: ваш вопрос может быть не так хорош, как вы думаете, или ваши данные могут не дать на него ответа. Не сжигайте много топлива на один вопрос и переключайтесь, если застряли, вы можете найти другие вопросы более интересными.

И всегда не забывайте сравнивать объем работы, необходимой для получения участка, с полученной от него ценностью. Иногда поиск простых отфильтрованных или агрегированных данных — это все, что вам нужно.

Уровень абстракции: видение общей картины

В EDA специалисты по данным стараются увидеть все. Даже если это не предназначено, большое количество данных может перегрузить простую диаграмму рассеяния. Решением в этом случае является выборка. Если у вас есть данные, которые трудно понять из-за большого количества точек, сделайте случайную выборку.

Если вас интересуют определенные категории, отфильтруйте по ним и уменьшите количество цветов точек на графике. Если у вас есть гистограмма с более чем 100 барами, просто отфильтруйте самые высокие 5 и т. д.

То, что вы упускаете при выборке, не так уж велико, всегда помните, что большое количество информации может сделать вас неспособным увидеть правду. Другой способ абстракции — использование различных типов графиков. Точечная диаграмма может быть линейным графиком с медианой, если вы хотите, например, увидеть тренд точек.

Некоторые типы сюжетов эквивалентны с той лишь разницей, что каждый из них содержит информацию. Скрипки и коробочный сюжет эквивалентны скрипке, имеющей больше информации. линия и разброс могут быть эквивалентны, а также линейные и гистограммы в некоторых случаях. упрощение этого типа может быть полезно, если вы хотите проверить тренд, но не уверены из-за всех данных на графике.

Итеративный подход: уточнение вашего исследования

Несмотря на выполнение описанных шагов, EDA все еще может стать грязным. Вместо того, чтобы следовать строгому каскадному подходу, используйте итеративный рабочий процесс. Проведите несколько быстрых итераций, ответив на как можно больше вопросов, прежде чем пересматривать свою работу.

Очень важно делать перерывы и пересматривать графики свежим взглядом. Этот процесс часто приводит к возникновению новых вопросов, новаторских идей и выявлению потенциальных проблем с вашим подходом.

Как только вы будете готовы, задокументируйте свои новые вопросы и начните процесс заново. Подумайте о том, чтобы начать с новой записной книжки и даже создать отдельную записную книжку для случайных исследований.

Основная цель каждой итерации — стать на шаг ближе к своей цели. Чем больше итераций вы сделаете, тем удобнее вам будет работать с данными и тем полезнее будут выводы, которые вы сделаете.

Заключение

На этом завершаются основные этапы исследовательского анализа данных (EDA). Прежде чем погрузиться в EDA, ознакомьтесь с ключевыми инструментами, такими как Matplotlib, Seaborn и Pandas.

В частности, Pandas предлагает быстрые и эффективные возможности построения графиков с помощью объекта фрейма данных. Кроме того, ознакомьтесь с различными типами графиков и их конкретными вариантами использования.

Крайне важно сосредоточиться на графиках, которые повышают ценность и ясность вашего анализа, а не усложняют его.

Помните, что визуализация данных — это форма искусства, требующая практики и экспериментов. Примите участие в процессе, изучите новые возможности и раскройте истинный потенциал ваших данных с помощью потрясающих визуальных представлений.

Источники изображений:

Freepik.com