Краткое руководство по началу работы с методами визуализации данных в пакете ggplot2.
Что такое визуализация данных?
Это практика визуализации данных в виде графиков, значков, презентаций и т. д. Чаще всего он используется для преобразования сложных данных в удобоваримые идеи для нетехнической аудитории.
Это отличная книга, которую можно использовать в качестве отправной точки, если вы новичок в визуализации данных - Рассказывание историй с данными.
Если вам интересно узнать больше о визуализации данных с помощью Python, посмотрите мой другой учебник - Matplotlib в Python.
Что такое R?
R - это язык программирования, который в основном используется для статистического анализа. Это распространенный инструмент для анализа в сфере финансов и здравоохранения.
R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) И графических методов и обладает высокой расширяемостью.
Отличные ресурсы для начала работы с R,
Что такое ggplot2?
Ggplot2 - это пакет R из tidyverse. Его популярность объясняется простотой настройки графиков и удаления или изменения компонентов графика на высоком уровне абстракции.
Если вам интересно узнать больше, посмотрите эту книгу - Визуализация данных в R с помощью ggplot2
Синтаксис построения графиков в ggplot основан на простом подходе к построению графиков по слоям.
- данные
- эстетика - переменные
- геометрический стиль - здесь вы определяете стиль графика
- дополнительные слои для настройки - заголовок, метки, ось и т. д.
Структура выглядит примерно так.
ggplot(data = Example_Data) +
aes(x = Variable_1, y = Variable_2) +
geom_bar() #this is an example of a bar plot sysntax
В этом руководстве я предполагаю, что у вас есть базовые навыки работы с концепциями R.
Давайте начнем!
Готовим нашу окружающую среду
Для начала нам нужно установить пакеты tidyverse и ggplot2.
install.packages(c("ggplot2", "tidyverse")
Далее нам нужно будет загрузить библиотеку ggplot2.
library(ggplot2)
Гистограммы
Что касается данных, мы будем работать с набором данных под названием reviews. Файл уже прочитан в нашу среду. Набор данных reviews представляет собой набор обзоров фильмов с 4 основных сайтов с обзорами, Fandango, Rotten Tomatoes, IMDB и Metacritic.
Нас интересуют следующие входы:
- data = отзывы
- эстетика = (ось x = рейтинг сайта, ось y = средний рейтинг)
- геометрический стиль = гистограмма
Чтобы создать столбчатую диаграмму, которая показывает средние оценки для каждого веб-сайта, мы можем сделать следующее.
ggplot(data=reviews) + aes(x = Rating_Site, y = avg) + geom_bar(stat = 'identity')
Гистограммы
Гистограммы показывают нам, насколько часто встречается значение. Ниже представлена гистограмма, показывающая частотное распределение оценок в нашем наборе данных обзоров. Обратите внимание, что добавлены некоторые дополнительные слои.
ggplot(data = reviews) + aes(x = Rating, fill = "red") + geom_histogram(bins=30) + labs(title = "Distribution of Ratings")
Дополнительные шаги:
- fill - мы использовали это в эстетическом слое, чтобы указать желаемый цвет.
- geom_histogram () - здесь мы определяем, что хотим гистограмму.
- labs - чтобы добавить заголовок, мы использовали новый слой для меток.
Здесь мы видим, что мы изменили и добавили 3 новых слоя. ggplot позволяет очень легко настраивать графики в соответствии с нашими личными предпочтениями.
Коробчатые графики
Коробчатые диаграммы - еще один отличный инструмент для визуализации описательной статистики. Если вы хотите узнать больше о коробчатых графиках, ознакомьтесь с этой статьей коллеги по Data Science - Майкла Галарника.
На диаграмме ниже показан разброс для всех рейтинговых сайтов.
ggplot(data=reviews) + aes(x=Rating_Site, y = Rating, color = Rating_Site) + geom_boxplot() + labs(title="Comparison of Movie Ratings") + theme(panel.background = element_rect(fill = "white"), legend.position="none")
Теперь мы смотрим на эту коробочную диаграмму: мы изменили или добавили несколько новых слоев.
- color - цвет позволяет нам настроить границу строки элемента, здесь мы выбираем передачу переменной rating_site. Благодаря этому каждая коробка отличается по цвету друг от друга.
- geom_boxplot () - указать стиль графика
- panel.background - это позволяет нам удалить серый фон и заполнить его белым. Лично я предпочитаю всегда использовать белый фон, но в зависимости от того, что вы пытаетесь передать, иногда более полезными могут быть разные цвета фона.
- legend.position - здесь я заявляю, что нужно удалить метки легенды. Почему? Если бы я оставил легенду видимой, она просто указала бы, к какому rating_site соответствует цвет каждой коробчатой диаграммы, на которую он ссылается. Это повторяется, поскольку ясно, что xlabels уже показывают нам рейтинг rating_site.
В целом, мы видим, что прямоугольник, представляющий рейтинги Fandango, расположен выше по оси Y, чем рейтинги других сайтов. Для сравнения, поле «Тухлые помидоры» длиннее, что означает, что рейтинги разнесены друг от друга.
Обзор
ggplot - один из самых мощных инструментов для визуализации в R. Как только вы погрузитесь глубже в эту тему, вы увидите, насколько широкими возможностями настройки вы можете пользоваться для создания красочных, подробных и ярких графиков.
В библиотеке ggplot доступно намного больше графиков, а также в других популярных библиотеках, доступных в R. Стоит изучить все различные варианты и найти, какая библиотека соответствует вашему стилю кодирования и анализа.
Следите за обновлениями - я поделюсь дополнительными уроками по созданию других графиков в ggplot.