Обзор популярных библиотек R для науки о данных

Наука о данных - это дисциплина, позволяющая сделать данные полезными

Когда мы говорим о лучшем языке программирования для науки о данных, мы часто считаем, что Python лучше всего подходит для этой темы. Конечно, Python, несомненно, является отличным выбором для подавляющего большинства задач, связанных с наукой о данных, но есть еще один язык программирования, который был создан специально для обеспечения превосходных возможностей обработки чисел для науки о данных, и это R.

Помимо предоставления надежных статистических вычислений, R предлагает огромную коллекцию, более 16 тысяч, если быть точным, весьма изобретательных библиотек, удовлетворяющих потребности специалистов по анализу данных, специалистов по добыче данных. , и статистики одинаково. Кроме того, в этой статье мы прольем свет на несколько лучших библиотек R для Data Science.



Лучшие библиотеки R для науки о данных

R чрезвычайно популярен среди специалистов по добыче данных и статистиков, и отчасти это связано с обширным набором библиотек, которые поставляются с R. Эти инструменты и функции могут упростить статистику задачи, что упрощает такие задачи, как манипулирование данными, визуализация, сканирование веб-страниц, машинное обучение и другие. Некоторые библиотеки кратко описаны ниже:

1. dplyr

dplyr package, также известный как грамматика манипулирования данными, по сути, предоставляет часто используемые инструменты и функции для манипулирования данными, в том числе следующие функции:

  • filter (): для фильтрации данных на основе критериев.
  • mutate (): чтобы добавить новые переменные, которые будут действовать как функции существующих переменных.
  • select (): для выбора переменных на основе имен
  • summarize (): помогает суммировать данные из нескольких значений.
  • аранжировка (): для изменения порядка строк.
  • Кроме того, вы можете использовать функцию group_by (), которая может возвращать результаты, сгруппированные в соответствии с требованиями. Если вы хотите проверить пакет dplyr, вы можете либо получить его из tidyverse, либо установить пакет напрямую с помощью команды install.packages (« dplyr ).

2. тидыр

tidyr - один из основных пакетов в экосистеме Tidyverse, и, как следует из названия, он используется для очистки беспорядочных данных . А теперь, если вам интересно, что такое аккуратные данные, позвольте мне прояснить их для вас. Аккуратные данные показывают, что каждый столбец является переменным, каждая строка представляет собой наблюдение, а каждая ячейка представляет собой единичное значение.

Согласно tidyr, аккуратные данные - это способ хранения данных, которые будут использоваться во всей tidyverse и могут помочь вам сэкономить время и повысить продуктивность анализа. Вы можете получить пакет из tidyverse или с помощью следующей команды install.packages (« tidyr )».



3. ggplot2

ggplot2 входит в число лучших R-библиотек для визуализации данных и активно используется тысячами пользователей по всему миру для создания убедительных диаграмм, графиков и графиков. . Причина такой популярности в том, что ggplot2 был создан для упрощения процесса визуализации за счет минимального ввода от разработчика, такого как данные для визуализации, стиль и используемые примитивы, а все остальное оставлено библиотеке.

Результатом является график, который легко представляет сложную статистику для мгновенных визуализаций. Если вы хотите добавить больше настраиваемости своим диаграммам, вы можете использовать IDE, такие как RStudio, для более детального контроля. Вы можете получить доступ к ggplot2 через коллекцию tidyverse или используя автономную библиотеку с помощью команды install.packages (« ggplot2 )».

Прочтите эту документацию R, чтобы узнать о функциях ggplot2-



ggplot2
Система для« декларативного
создания графики, основанная на Грамматике графики . Вы предоставляете данные, говорите… www.rdocumentation.org »



4. смазывать

R - отличный язык программирования для Data Science, но в некоторых областях R может показаться неполным. Одна из таких областей - обработка даты и времени. Для любого, кто активно работает с датой и временем в R, встроенные возможности могут показаться обременительными.

Чтобы преодолеть это, у нас есть удобный пакет под названием lubridate. Пакет не только обрабатывает стандартные дату и время в R, но также предлагает дополнительные улучшения, такие как периоды времени, летнее время, високосные дни. , поддерживает различные часовые пояса, быстрый анализ времени и множество вспомогательных функций. Если ваш проект требует от вас работы со временем и датой, вы можете получить пакет lubridate от tidyverse или установить только пакет с помощью команды install.packages (« lubridate )».

Прочтите документацию здесь:



5. решетка

решетка - еще одна элегантная, но мощная библиотека визуализации данных, ориентированная на многомерные данные. Что делает эту библиотеку особенной, так это то, что помимо обработки обычных визуализаций, решетка также подготовлена ​​с поддержкой нестандартных ситуаций и требований. Поскольку он является практической реализацией графики Trellis для R, он позволяет вам создавать графики Trellis и даже предлагает варианты настройки графиков в соответствии с вашими требованиями. lattice поставляется с R по умолчанию, но есть расширенная версия lattice под названием latticeExtra, которая может пригодиться, если вы хотите расширить основные функции, предоставляемые решеткой.

6. млр

Машинное обучение в R (mlr) - это библиотека, которая была выпущена в 2013 и была обновлена ​​до mlr3 с использованием новых методов, a лучшая архитектура и основной дизайн в 2019 году. На данный момент библиотека предоставляет основу для решения нескольких классификаций, регрессии, поддержки векторных машин и многих других действий по машинному обучению.

mlr3 предназначен для практиков и исследователей машинного обучения, чтобы облегчить тестирование и развертывание различных алгоритмов машинного обучения без особых хлопот. Для тех, кто хочет расширить и даже объединить существующих учащихся и настроить лучшую технику для решения задачи, MLR3 станет идеальным вариантом. mlr3 можно установить с помощью команды install.packages (« mlr3 )».

Здесь упоминается широкий спектр функций -



7. каретка

Сокращение от Обучение классификации и регрессии, библиотека каретка предоставляет несколько функций для оптимизации процесса обучения модели для решения сложных задач регрессии и классификации. caret поставляется с несколькими дополнительными инструментами и функциями для таких задач, как разделение данных, оценка важности переменных, выбор функций, предварительная обработка и многие другие. С помощью каретки вы также можете измерить производительность моделей и даже точно настроить поведение модели, используя различные параметры, такие как tuneLength или tuneGrid, в соответствии с вашими требованиями. Сам пакет прост в использовании и загружает только необходимые компоненты по мере их поступления. Библиотеку можно установить с помощью команды install.packages (« caret )».



8. esquisse

esquisse - это не библиотека как таковая, а надстройка для мощной библиотеки визуализации данных ggplot2. Вам может быть интересно, зачем вам это нужно с ggplot2, позвольте мне прояснить это для вас. ggplot2 уже достаточно умен, но если вам нужен дополнительный уровень интуитивности для ваших визуализаций, esquisse - правильный путь. esquisse позволяет вам просто перетаскивать необходимые данные, выбирать желаемые параметры настройки, и вот вам индивидуальный график, созданный за короткий период и готовый к экспорту в любое приложение по вашему выбору. С помощью esquisse вы можете создавать визуализации, такие как гистограммы, гистограммы, диаграммы рассеяния, объекты SF. Вы можете добавить esquisse в свою среду с помощью install.packages (esquisse) ».

9. блестящий

shiny - это структура веб-приложений от RStudio, которая позволяет разработчикам создавать интерактивные веб-приложения с использованием R с минимальным опытом веб-разработки. С помощью shiny вы можете создавать веб-страницы, интерактивные визуализации, информационные панели и даже встраивать виджеты в документы R. shiny также можно легко расширить с помощью тем CSS, действий JavaScript и HTML-виджетов для дополнительной настройки. Он поставляется с множеством привлекательных встроенных виджетов для представления графиков, таблиц и вывода объектов R, и все, что вы кодируете в shiny, сразу же начинает работать, устраняя эти раздражающие частые обновления страниц. Если вам нравятся функции и вы хотите попробовать их, вы можете стать блестящим, используя команду install.packages (« shiny )».

10. Rcrawler

Если вам нужен инструмент для удаления данных с веб-сайтов, причем в понятном формате, не ищите дальше, Rcrawler - то, что вам нужно. Благодаря мощным возможностям веб-сканирования, извлечения данных и интеллектуального анализа данных Rcrawler вы можете не только сканировать веб-сайты и извлекать данные, но также анализировать сетевую структуру любого веб-сайта, включая его внутренние и внешние гиперссылки. Если вам интересно, почему бы не использовать rvest, пакет Rcrawler является шагом вперед по сравнению с rvest, поскольку он просматривает все страницы на веб-сайте и извлекает данные, что может быть чрезвычайно полезным при пытаясь собрать всю информацию из одних рук и за один раз. Пакет можно установить с помощью команды install.packages (« Rcrawler )».

11. DT

Пакет DT действует как оболочка для библиотеки JavaScript под названием DataTables, для R. DT позволяет преобразовывать данные в матрице R в интерактивную таблицу на вашем компьютере. HTML-страница, которая упрощает поиск, сортировку и фильтрацию данных. Пакет работает, позволяя основной функции, то есть функции datatable (), создавать виджет HTML для объектов R. DT позволяет осуществлять дальнейшую тонкую настройку с помощью аргументов параметры и даже некоторую дополнительную настраиваемость ваших таблиц, и все это без углубления в кодирование. Пакет DT можно установить с помощью команды install.packages (« DT )».

12. сюжетно

Если вы хотите создавать интерактивные визуализации, которые крадут шоу, plotly вам идеально подойдет. С помощью Plotly вы можете создавать потрясающие, достойные публикации визуализации из разнообразной коллекции диаграмм и графиков, таких как точечные и линейные графики, гистограммы, круговые диаграммы, гистограммы, тепловые карты, контурные графики, временные ряды Вы называете это и сюжетно можете это сделать. Построенные на основе библиотеки plotly.js, визуализации plotly также могут отображаться в веб-приложениях через Dash, в Jupyter Notebooks или сохраняться в виде файлов HTML. Если вы хотите опробовать пакет, вы можете установить его с помощью команды install.packages (« plotly )».

Другие полезные библиотеки R -

  • Биокондуктор
  • Knitr
  • Дворник
  • randomForest
  • e1071
  • стрингер
  • Таблица данных
  • RMarkdown
  • Rvest

Заключение

В этой статье мы рассмотрели некоторые из лучших библиотек R, охватывающих общие задачи Data Science, такие как визуализация, грамматика, обучение модели машинного обучения и оптимизация. Мы знаем, что это не обширный список и никоим образом не охватывает всю обширную экосистему библиотек R. CRAN, репозиторий для всего, что связано с R, имеет тысячи одинаково эффективных и находчивых библиотек для ваших конкретных нужд с подробной информацией и документацией. Если вам когда-нибудь понадобится найти библиотеку, мы настоятельно рекомендуем вам попробовать CRAN.

Примечание. Чтобы устранить проблемы различного рода, я хочу предупредить вас о том, что эта статья представляет лишь мое личное мнение, которым я хочу поделиться, и вы имеете полное право не согласиться с ним. Если я пропустил какую-либо важную библиотеку, сообщите мне об этом в разделе комментариев.

Более интересные чтения -

Надеюсь, эта статья оказалась для вас полезной! Ниже приведены некоторые интересные материалы, надеюсь, они вам тоже понравятся.











Об авторе

Клэр Д.. является создателем контента и маркетологом в Digitalogy - торговой площадке для поиска поставщиков и индивидуального поиска партнеров, которая объединяет людей с предварительно отобранными и первоклассными разработчиками и дизайнерами на основе их конкретных потребностей по всему миру. Подключайтесь к Digitalogy в Linkedin, Twitter, Instagram.