Краткое руководство по началу работы с методами визуализации данных в пакете ggplot2.

Что такое визуализация данных?

Это практика визуализации данных в виде графиков, значков, презентаций и т. д. Чаще всего он используется для преобразования сложных данных в удобоваримые идеи для нетехнической аудитории.

Это отличная книга, которую можно использовать в качестве отправной точки, если вы новичок в визуализации данных - Рассказывание историй с данными.

Если вам интересно узнать больше о визуализации данных с помощью Python, посмотрите мой другой учебник - Matplotlib в Python.

Что такое R?

R - это язык программирования, который в основном используется для статистического анализа. Это распространенный инструмент для анализа в сфере финансов и здравоохранения.

R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) И графических методов и обладает высокой расширяемостью.

Отличные ресурсы для начала работы с R,

  1. Кодекадемия
  2. Гуру99
  3. Книга R

Что такое ggplot2?

Ggplot2 - это пакет R из tidyverse. Его популярность объясняется простотой настройки графиков и удаления или изменения компонентов графика на высоком уровне абстракции.

Если вам интересно узнать больше, посмотрите эту книгу - Визуализация данных в R с помощью ggplot2

Синтаксис построения графиков в ggplot основан на простом подходе к построению графиков по слоям.

  1. данные
  2. эстетика - переменные
  3. геометрический стиль - здесь вы определяете стиль графика
  4. дополнительные слои для настройки - заголовок, метки, ось и т. д.

Структура выглядит примерно так.

ggplot(data = Example_Data) +
       aes(x = Variable_1, y = Variable_2) +
       geom_bar()   #this is an example of a bar plot sysntax

В этом руководстве я предполагаю, что у вас есть базовые навыки работы с концепциями R.

Давайте начнем!

Готовим нашу окружающую среду

Для начала нам нужно установить пакеты tidyverse и ggplot2.

install.packages(c("ggplot2", "tidyverse")

Далее нам нужно будет загрузить библиотеку ggplot2.

library(ggplot2)

Гистограммы

Что касается данных, мы будем работать с набором данных под названием reviews. Файл уже прочитан в нашу среду. Набор данных reviews представляет собой набор обзоров фильмов с 4 основных сайтов с обзорами, Fandango, Rotten Tomatoes, IMDB и Metacritic.

Нас интересуют следующие входы:

  1. data = отзывы
  2. эстетика = (ось x = рейтинг сайта, ось y = средний рейтинг)
  3. геометрический стиль = гистограмма

Чтобы создать столбчатую диаграмму, которая показывает средние оценки для каждого веб-сайта, мы можем сделать следующее.

ggplot(data=reviews) +
    aes(x = Rating_Site, y = avg) +
        geom_bar(stat = 'identity')

Гистограммы

Гистограммы показывают нам, насколько часто встречается значение. Ниже представлена ​​гистограмма, показывающая частотное распределение оценок в нашем наборе данных обзоров. Обратите внимание, что добавлены некоторые дополнительные слои.

ggplot(data = reviews) +
    aes(x = Rating, fill = "red") +
        geom_histogram(bins=30) +
        labs(title = "Distribution of Ratings")

Дополнительные шаги:

  1. fill - мы использовали это в эстетическом слое, чтобы указать желаемый цвет.
  2. geom_histogram () - здесь мы определяем, что хотим гистограмму.
  3. labs - чтобы добавить заголовок, мы использовали новый слой для меток.

Здесь мы видим, что мы изменили и добавили 3 новых слоя. ggplot позволяет очень легко настраивать графики в соответствии с нашими личными предпочтениями.

Коробчатые графики

Коробчатые диаграммы - еще один отличный инструмент для визуализации описательной статистики. Если вы хотите узнать больше о коробчатых графиках, ознакомьтесь с этой статьей коллеги по Data Science - Майкла Галарника.

На диаграмме ниже показан разброс для всех рейтинговых сайтов.

ggplot(data=reviews) +
    aes(x=Rating_Site, y = Rating, color = Rating_Site) +
        geom_boxplot() +
            labs(title="Comparison of Movie Ratings") +
                theme(panel.background = element_rect(fill = "white"), legend.position="none")

Теперь мы смотрим на эту коробочную диаграмму: мы изменили или добавили несколько новых слоев.

  1. color - цвет позволяет нам настроить границу строки элемента, здесь мы выбираем передачу переменной rating_site. Благодаря этому каждая коробка отличается по цвету друг от друга.
  2. geom_boxplot () - указать стиль графика
  3. panel.background - это позволяет нам удалить серый фон и заполнить его белым. Лично я предпочитаю всегда использовать белый фон, но в зависимости от того, что вы пытаетесь передать, иногда более полезными могут быть разные цвета фона.
  4. legend.position - здесь я заявляю, что нужно удалить метки легенды. Почему? Если бы я оставил легенду видимой, она просто указала бы, к какому rating_site соответствует цвет каждой коробчатой ​​диаграммы, на которую он ссылается. Это повторяется, поскольку ясно, что xlabels уже показывают нам рейтинг rating_site.

В целом, мы видим, что прямоугольник, представляющий рейтинги Fandango, расположен выше по оси Y, чем рейтинги других сайтов. Для сравнения, поле «Тухлые помидоры» длиннее, что означает, что рейтинги разнесены друг от друга.

Обзор

ggplot - один из самых мощных инструментов для визуализации в R. Как только вы погрузитесь глубже в эту тему, вы увидите, насколько широкими возможностями настройки вы можете пользоваться для создания красочных, подробных и ярких графиков.

В библиотеке ggplot доступно намного больше графиков, а также в других популярных библиотеках, доступных в R. Стоит изучить все различные варианты и найти, какая библиотека соответствует вашему стилю кодирования и анализа.

Следите за обновлениями - я поделюсь дополнительными уроками по созданию других графиков в ggplot.