В этом блоге вы узнаете, как легко выполнять манипуляции с данными с помощью программного обеспечения R. В основном мы будем использовать популярный пакет dplyr R, который содержит важные функции R, которые упрощают работу с вашими данными. Пакет dplyr (написанный Хэдли Викхэмом) предоставляет нам несколько функций, которые облегчают манипулирование фреймами данных в R. Некоторые из наиболее полезных включают:
- Функция выбора: облегчает выбор записей (строк)
2. Функция фильтра: облегчает выбор переменных (столбцов).
3. Функция упорядочивания: упрощает упорядочивание записей.
4. Функция mutate: облегчает создание новых переменных.
5. Функция переименования: облегчает переименование переменных.
6. Функция суммирования: упрощение суммирования переменных.
В конце этого блога вы познакомитесь с инструментами и подходами к манипулированию данными, которые позволят вам эффективно манипулировать данными.
Что такое манипулирование данными?
Если вы все еще не понимаете этот термин, позвольте мне объяснить его вам. Манипуляция данными - это широко используемый термин в термине «исследование данных». Он включает в себя «манипулирование» данными с использованием доступного набора переменных. Это сделано для повышения точности и точности связанных с данными.
На самом деле в процессе сбора данных может быть много лазеек. Существуют различные неконтролируемые факторы, которые приводят к неточности в данных, такие как психическое состояние респондентов, личные предубеждения, разница / ошибка в показаниях машин и т. Д. Чтобы уменьшить эти неточности, манипуляции с данными производятся для повышения возможной (наивысшей) точности данных.
Иногда этот этап также известен как обработка данных или очистка данных.
Требуемый пакет R
Во-первых, вам необходимо установить пакет dplyr и загрузить библиотеку dplyr, после чего вы сможете выполнять следующие функции управления данными.
install.packages('dplyr')
library(dplyr)
Демо-наборы данных
student <- data.frame(Student_Id = c(1012301, 1012302, 1012303, 1012304, 1012305), Firstname = c('John', 'Jeff', 'Ronald', 'Jennifer', 'Jessica'), Lastname = c('Novak', 'Barr', 'Lum', 'Forbis', 'Connor'), Subject_Id = c('SAE6A', 'SAE6B', 'SAE6C', 'SAE6G', 'SAE61'), Age = c(20, 19, 20, 19, 20), Sex = c('M', 'M', 'M', 'F', 'F')) print(student)
Выход:
1. Выберите функцию
Функция выбора позволяет нам выбирать столбцы, которые будут находиться в наборе данных. Это можно сделать, просто указав имена (или номера) столбцов, которые нужно сохранить.
Вы можете выполнять манипуляции с данными как в фрейме данных, так и в файле CSV.
Теперь вы можете выбрать любое количество столбцов, используя функцию выбора. Здесь столбцы с 1 по 3 и 5 выбираются с использованием имени и номера столбца, которые показаны во фрагменте ниже:
Вы можете использовать негативы для выбора столбцов, которые нужно удалить:
Существует ряд дополнительных вспомогательных функций, которые вы можете использовать для идентификации столбцов, которые нужно выбрать или опустить, например, «содержит», «начинается с начала» и «концы с со стороны»:
2. Функция фильтра
Функция фильтра позволяет нам выбирать определенные строки из фрейма данных. Вы достигнете этого, указав логический оператор:
3. Функция аранжировки
Функция упорядочивания позволяет нам сортировать данные по 1 или более переменным. Вы предоставляете значения, которые определяют переменные для сортировки в порядке возрастания:
Вы можете использовать функцию desc, чтобы указать, что переменная будет отсортирована в порядке убывания:
4. Функция mutate
Вы можете создавать новые переменные во фрейме данных, используя функцию mutate:
Совет: функцию ifelse можно использовать для условной логики при создании переменных.
5. Функция переименования
Функция переименования обеспечивает удобный и легко читаемый способ переименования столбцов:
Вы также можете переименовать сразу несколько переменных:
Совет. Новое имя находится слева, а старое - справа.
6. Функция суммирования
Часто при анализе набора данных мы хотим вычислить сводную статистику; Вы можете сделать это с помощью функции суммирования в сочетании с несколькими основными функциями суммирования:
- Стандартные сводки, такие как среднее, медианное, минимальное, максимальное и т. Д.
- Дополнительные функции, предоставляемые dplyr: n, n_distinct
- Суммы логических значений, например sum (x ›10)
Если у вас отсутствуют данные, мы можем добавить параметр na.rm = TRUE, который найдет итоговое значение, даже если есть пропущенные значения.
Обратите внимание, что имена столбцов по умолчанию соответствуют сделанному вызову. Вы можете заменить их, указав новое имя столбца:
Резюме
В этом блоге, посвященном манипулированию данными в R, мы обсудили функции манипулирования данными в R. Пакет dplyr предоставляет нам несколько функций, которые облегчают манипуляции с данными (например, выбор, фильтрация, упорядочивание, изменение, суммирование, переименование).
При вызове функций:
- Первый аргумент - это фрейм входных данных,
- Остальные аргументы описывают, что делать с фреймом данных.
- Функция выводит фрейм данных.
Следующая часть серии part2 будет посвящена обработке данных с помощью tidyr пакета.
Если вам понравился блог или он оказался полезным, пожалуйста, оставьте аплодисменты!
Спасибо