Манипуляция данными с использованием DPLYR: Часть 1

В этом блоге вы узнаете, как легко выполнять манипуляции с данными с помощью программного обеспечения R. В основном мы будем использовать популярный пакет dplyr R, который содержит важные функции R, которые упрощают работу с вашими данными. Пакет dplyr (написанный Хэдли Викхэмом) предоставляет нам несколько функций, которые облегчают манипулирование фреймами данных в R. Некоторые из наиболее полезных включают:

Функция выбора: облегчает выбор записей (строк)

2. Функция фильтра: облегчает выбор переменных (столбцов).

3. Функция упорядочивания: упрощает упорядочивание записей.

4. Функция mutate: облегчает создание новых переменных.

5. Функция переименования: облегчает переименование переменных.

6. Функция суммирования: упрощение суммирования переменных.

В конце этого блога вы познакомитесь с инструментами и подходами к манипулированию данными, которые позволят вам эффективно манипулировать данными.

Что такое манипулирование данными?

Если вы все еще не понимаете этот термин, позвольте мне объяснить его вам. Манипуляция данными - это широко используемый термин в термине «исследование данных». Он включает в себя «манипулирование» данными с использованием доступного набора переменных. Это сделано для повышения точности и точности связанных с данными.

На самом деле в процессе сбора данных может быть много лазеек. Существуют различные неконтролируемые факторы, которые приводят к неточности в данных, такие как психическое состояние респондентов, личные предубеждения, разница / ошибка в показаниях машин и т. Д. Чтобы уменьшить эти неточности, манипуляции с данными производятся для повышения возможной (наивысшей) точности данных.

Иногда этот этап также известен как обработка данных или очистка данных.

Требуемый пакет R

Во-первых, вам необходимо установить пакет dplyr и загрузить библиотеку dplyr, после чего вы сможете выполнять следующие функции управления данными.

install.packages('dplyr')
library(dplyr)

Демо-наборы данных

student <- data.frame(Student_Id = c(1012301, 1012302, 1012303,          1012304, 1012305),
                 Firstname = c('John', 'Jeff', 'Ronald', 'Jennifer', 'Jessica'),
                 Lastname = c('Novak', 'Barr', 'Lum', 'Forbis', 'Connor'),
                 Subject_Id = c('SAE6A', 'SAE6B', 'SAE6C', 'SAE6G', 'SAE61'),
                 Age = c(20, 19, 20, 19, 20),
                 Sex = c('M', 'M', 'M', 'F', 'F'))
print(student)

Выход:

1. Выберите функцию

Функция выбора позволяет нам выбирать столбцы, которые будут находиться в наборе данных. Это можно сделать, просто указав имена (или номера) столбцов, которые нужно сохранить.

Вы можете выполнять манипуляции с данными как в фрейме данных, так и в файле CSV.

Теперь вы можете выбрать любое количество столбцов, используя функцию выбора. Здесь столбцы с 1 по 3 и 5 выбираются с использованием имени и номера столбца, которые показаны во фрагменте ниже:

Вы можете использовать негативы для выбора столбцов, которые нужно удалить:

Существует ряд дополнительных вспомогательных функций, которые вы можете использовать для идентификации столбцов, которые нужно выбрать или опустить, например, «содержит», «начинается с начала» и «концы с со стороны»:

2. Функция фильтра

Функция фильтра позволяет нам выбирать определенные строки из фрейма данных. Вы достигнете этого, указав логический оператор:

3. Функция аранжировки

Функция упорядочивания позволяет нам сортировать данные по 1 или более переменным. Вы предоставляете значения, которые определяют переменные для сортировки в порядке возрастания:

Вы можете использовать функцию desc, чтобы указать, что переменная будет отсортирована в порядке убывания:

4. Функция mutate

Вы можете создавать новые переменные во фрейме данных, используя функцию mutate:

Совет: функцию ifelse можно использовать для условной логики при создании переменных.

5. Функция переименования

Функция переименования обеспечивает удобный и легко читаемый способ переименования столбцов:

Вы также можете переименовать сразу несколько переменных:

Совет. Новое имя находится слева, а старое - справа.

6. Функция суммирования

Часто при анализе набора данных мы хотим вычислить сводную статистику; Вы можете сделать это с помощью функции суммирования в сочетании с несколькими основными функциями суммирования:

Стандартные сводки, такие как среднее, медианное, минимальное, максимальное и т. Д.
Дополнительные функции, предоставляемые dplyr: n, n_distinct
Суммы логических значений, например sum (x ›10)

Если у вас отсутствуют данные, мы можем добавить параметр na.rm = TRUE, который найдет итоговое значение, даже если есть пропущенные значения.

Обратите внимание, что имена столбцов по умолчанию соответствуют сделанному вызову. Вы можете заменить их, указав новое имя столбца:

Резюме

В этом блоге, посвященном манипулированию данными в R, мы обсудили функции манипулирования данными в R. Пакет dplyr предоставляет нам несколько функций, которые облегчают манипуляции с данными (например, выбор, фильтрация, упорядочивание, изменение, суммирование, переименование).

При вызове функций:

Первый аргумент - это фрейм входных данных,
Остальные аргументы описывают, что делать с фреймом данных.
Функция выводит фрейм данных.

Следующая часть серии part2 будет посвящена обработке данных с помощью tidyr пакета.

Если вам понравился блог или он оказался полезным, пожалуйста, оставьте аплодисменты!

Спасибо