Если вы думаете о том, чтобы войти в R, это руководство даст вам краткое представление о том, с чего вам следует начать. В этом руководстве я попытался дать базовое представление о науке о данных, используя R.

Установка R and R Studio

Вы можете скачать подробную настройку R and R Studio здесь.

После загрузки и установки вышеупомянутого программного обеспечения вы готовы начать свое путешествие по программированию с R. Теперь вы можете открыть R Studio, щелкнуть Файл, New File, и, наконец, R Script.

Установка пакетов и импорт библиотек

Давайте разберемся с пакетами и библиотеками и узнаем, как они играют важную роль в программировании на R.

Библиотека - это не что иное, как набор функций, разработанных для выполнения определенных задач. Таким образом, каждый раз, когда программист пишет код, вместо того, чтобы писать десятки и сотни строк просто для выполнения простой операции, такой как поиск квадратного корня, он / она напрямую использует легкодоступную функцию в библиотеке R. по умолчанию. собрание библиотек. По сути, он расширяет функциональность, доступную в R.

Список полезных библиотек можно продолжать очень долго, однако не беспокойтесь о том, чтобы запомнить имя каждой библиотеки, необходимой для эффективного использования. Для этого у нас есть такие пакеты, как «tidyverse». В этом пакете есть все вышеупомянутые библиотеки и многое другое. Итак, давайте установим этот пакет в R и импортируем его в нашу программу со следующими инструкциями:

#Install package
install.packages(“tidyverse”) #Load core tidyverse package
library(tidyverse) or require(tidyverse)
search() #to check what all packages are present

Поскольку мы уже говорили о библиотеках и пакетах, теперь мы собираемся узнать о матрицах, поскольку они представляют собой способ представления таблиц и ступеньку для перехода к фреймам данных.

Создайте свою первую матрицу

Для анализа мы будем использовать набор данных о 10 самых высокооплачиваемых игроках НБА за последние 10 лет. Набор данных баскетбола был получен из SuperDataScience в разделе 4. Таким образом, цель состоит в том, чтобы просто изучить тенденции и закономерности, которые вы видите в их эффективности за последние 10 лет.

mymatrix = matrix(data = "<path>", nrow="", ncol="", byrow=FALSE) #Replace <path> with the path of file

Есть некоторые функции, которые мы будем использовать для настройки матрицы.

Одномерная матрица:

  • rbind (): для заполнения данных матрицы в строке.
  • cbind (): для заполнения данных матрицы в столбце.
  • names (): для присвоения имен размерностей одномерной матрицы.

Двумерная матрица:

  • rownames (): для присвоения имени строки двумерной матрице.
  • colnames (): для присвоения имени столбца двумерной матрице.

Операции с матрицами:

  • round (cal, n): чтобы округлить вычисление, которое вы хотите в матрице, на n десятичных цифр.
  • транспонировать матрицу:
mymatrix = matrix(data = "<path>", nrow="", ncol="", byrow=FALSE) #Replace <path> with the path of file
trans_mymatrix <- t(mymatrix)

Визуализация с помощью Matplot ():

matplot () - это основной сюжетный дизайн с легендами и различиями.

matplot(t(mymatrix), type="b", pch=15:18, col=c(1:4,6))
legend("bottomleft", inset= 0.01, legend= Players, pch=15:18, col=c(1:4,6))

Подмножество: Чтобы изменить матрицу, выбрав определенную строку и столбец.

x <- c("a", "b", "c", "d", "e") 
x[c(1,2)] #"a", "b"
x[1] #"a"

До сих пор мы обсуждали библиотеки и пакеты, матрицы и их различные операции. Двигаясь дальше, мы поймем, что такое фрейм данных и как мы с ним работаем. Подождите ... вы можете задаться вопросом, в чем разница между матрицей и фреймом данных. Что ж, они очень похожи в том смысле, что оба являются двухмерными объектами, но основная разница в том, что в матрицах все данные должны иметь один и тот же тип.

Импорт набора данных

Для анализа мы будем использовать набор демографических данных в разделе 5 из SuperDataScience. Однако мы используем эти данные для анализа мировых демографических тенденций. Представьте, что вы работаете в качестве специалиста по данным, и вам необходимо создать диаграмму рассеяния, чтобы проиллюстрировать статистику рождаемости и использования Интернета по странам. После загрузки набора данных по указанной выше ссылке и помещения его в каталог по нашему выбору, теперь мы готовы импортировать данные в наш R-скрипт.

mydf = read.csv("<path>") #Replace <path> with the path of file or
mydf = read.csv(file.choose()) 

Если вы сохранили свой файл в рабочем каталоге, вы можете напрямую вызвать имя файла. Но перед этим вам нужно будет настроить папку, в которой вы сохранили файл, в качестве рабочего каталога. Сообщение, в котором вы можете напрямую назвать имя файла.

setwd("<path>")#Data set will be stored in mydata data frame
mydf = read.csv("Demographic_data.csv")

В моем случае файл хранится как «Demographic_data.csv». CSV означает значения, разделенные запятыми. В этом формате каждый элемент данных разделяется запятой. Хотя для разделения элементов данных можно использовать и другие символы. Чтобы получить более подробную информацию, вы можете просмотреть документацию R, используя следующую команду:

help(read.csv) #or
?read.csv

Изучение вашего набора данных

Теперь у нас есть импортированный набор данных, но в большинстве случаев мы не можем использовать его напрямую, поскольку он может быть неправильно упорядочен или может содержать некоторые функции, которые не требуются для нашего анализа. Прежде чем сделать это, давайте сначала взглянем на наши данные. Для этого вы можете использовать все или любую из перечисленных ниже команд.

head(mydf) #or tail(mydf) 
summary(mydf) #or str(mydf) 
nrow(mydf) #or ncol(mydf) #to get no of rows and cols

«$» - это еще один способ доступа к данным во фрейме данных.

Чтобы получить уровни определенного столбца, используйте уровни (). Однако столбец должен быть категориального типа «фактор». Чтобы преобразовать его, используйте factor (), который описан ниже.

mydf$Income.Group <- factor(mydf$Income.Group)
levels(mydf$Income.Group)
[1] "High income"         "Low income"          "Lower middle income" "Upper middle income"

Чтобы проверить, является ли набор данных фреймом данных, используйте is.data.frame (mydf)

Чтобы удалить столбец из набора данных, используйте mydf $ Income.Group ‹- null

Приведение в порядок набора данных

Фильтрация. Давайте отфильтруем данные на основе коэффициента рождаемости выше 4.

> gt4 <- mydf$Birth.rate > 4
> filtered_data <- mydf[gt4,]
> head(filtered_data)

Объединить: давайте объединим два фрейма данных (mydf и статистика) по коду страны.

> merged_data <- merge(mydf, stats, by.x = "Country.Code", by.y = "code")
> head(merged_data)

Визуализация и анализ данных

Для визуализации мы в основном будем использовать «ggplot2», который полезен почти для всех типов графиков. Мы также можем использовать пакет «dplyr» для тех же случаев использования. Графическое представление включает семь факторов:

  • тема: вещи, которые делают вашу диаграмму красивой и захватывающей.
  • координаты: как следует из названия, используются для категоризации данных.
  • аспекты. Получите представление о форме каждой особенности данных и изучите набор отдельных наблюдений с разной степенью детализации.
  • статистика: статистика может потребовать преобразования данных для создания новых переменных и их визуализации.
  • геометрии: размер чего вы не можете увидеть? Или цвет чего? Это круг? Это квадрат или нет? это точка или это линия?
  • эстетика: то, что вы видите, например, цвет, размер которого придает графику более удобный вид.
  • данные: центр графика.

В этом разделе мы обсудим рейтинги фильмов критиками и аудиторией как бюджеты фильмов на 2007–2011 годы. Однако мы рассмотрим различные способы создания графиков с помощью ggplot2. Для начала воспользуемся Moving Ratings в разделе 6 SuperDataScience.

Импортируйте файл и присвойте столбцам правильные имена, чтобы график был удобочитаемым. Отныне создайте ggplot2, сохраняя рейтинг критиков по координате x и рейтинг аудитории по координате x.

Давайте добавим эстетики графику ggplot

> ggplot(data = movies, aes(x=CriticRating, y=AudienceRating, color=Genre)) + geom_point()

Преодоление эстетики

> g <- ggplot(data = movies, aes(x=CriticRating, y=AudienceRating, color=Genre)) 
> g + geom_point(aes(size=CriticRating))

Сопоставление и настройка: сопоставление выполняется с помощью функции aes (), которую мы уже делали, в то время как настройка выполняется без нее. давай теперь посмотрим,

> g <- ggplot(data = movies, aes(x=CriticRating, y=AudienceRating)) 
> g + geom_point(aes(color=Genre)) #mapping
> g + geom_point(color="Dark Green") #setting

Гистограмма и графики плотности: сопоставление выполняется с помощью функции aes (), которую мы уже делали, в то время как настройка выполняется без нее. давай теперь посмотрим,

> g <- ggplot(data = movies, aes(x=CriticRating, y=AudienceRating)) 
> g + geom_point(aes(color=Genre)) #mapping
> g + geom_point(color="Dark Green") #setting

Вы готовы приступить к обширному EDA и построению модели в R. Все, что вам нужно, написать несколько строк кода - и бум, волшебство перед вами.

Спасибо, что прочитали статью, уверен, она будет очень полезна новичкам.