Вот несколько супер полезных библиотек, чтобы вы могли максимально использовать R для аналитики.

Наука о данных и R - брак, заключенный на небесах, - они сочетаются друг с другом, как шампанское и клубника, желе и мороженое или кокаин и вафли!

Но изучение R и знание того, какие библиотеки улучшат ваши навыки работы с данными, могут быть пугающими. Вот пять библиотек, которые сделают вашу аналитику намного более приятной и необходимы для освоения или достижения следующего шага в вашей карьере в области науки о данных. Ву!

Dplyr

Dplyr - отличная библиотека для очистки и обработки данных, которая очень полезна и хорошо известна в этой области. Dplyr имеет множество встроенных функций, которые сразу же полезны и применимы практически для любой аналитической задачи! SOme полезные функции включают в себя:

Выбрать: определенные столбцы данных.

Фильтр: ваши данные для выбора определенных строк.

Упорядочите: строки данных в порядке.

Изменить: ваш фрейм данных, чтобы он содержал новые столбцы.

Резюмируйте: каким-то образом фрагменты ваших данных.

Ggplot2

Любой Data Scientist, достойный своих мастеров, знает свой путь в ggplot. Вторая обновленная библиотека визуализации R имеет удивительное разнообразие и возможности для персональной модификации. Ggplot может генерировать все, от простой круговой диаграммы до сложной закрашенной гистограммы с накоплением до трехмерного представления ваших предварительно обученных встраиваний слов. Это действительно первоклассный материал, и его нельзя продвигать в достаточной степени.

Lubridate

Еще одна фантастическая библиотека R, которая находит широкое применение, особенно в реальных прикладных ситуациях, - это Lubridate. Lubridate - отличная библиотека для обработки и очистки данных временных рядов и управления любыми временными переменными, с которыми вы работаете. Вы можете делать все, что когда-либо хотели делать с арифметикой даты, используя эту библиотеку, хотя понимание и использование доступных функций здесь может быть несколько сложным. Проверить это!

Knitr

Это для всех ученых и авторов отчетов. Knitr является важным издательским программным обеспечением для R. Его цель - создавать воспроизводимые отчеты в различных форматах.

Этот пакет также позволяет интегрировать код R в документы LaTeX, Markdown, LyX, HTML, AsciiDoc и reStructuredText. Вы можете добавить R в документ с уценкой и легко создавать отчеты в HTML, Word и других форматах. Незаменим, если вы заинтересованы в исследованиях и автоматизации перехода от анализа данных до создания отчетов.

Словари Quanteda

Это для всех, кто занимается НЛП. Расширение пакета Quanteda, это расширение позволяет вам пользоваться обширным набором словарей данных. Все, от стоп-слов до лексиконов. Отличное исследование для быстрого и простого сравнения или для применения словарей с минимальной суетой. Один из моих личных фаворитов!

Интересные штучки!

Это лишь некоторые из наиболее распространенных библиотек, существует так много полезных библиотек R, и так много их находится в стадии разработки.

Для меня важно, чтобы библиотеки, которые я использую, были стабильными, до тех пор, пока они не будут обновляться и исправляться в новых выпусках и версиях. Попытка использовать устаревшую версию библиотеки, которая не совсем подходит для вашего проекта, может быть душераздирающей. Библиотеки здесь

Надеюсь, вам понравился этот обзор некоторых действительно первоклассных и важных библиотек R для ваших проектов в области науки о данных! Удачного анализа!

Алан.