Библиотеки Python
3 удивительные библиотеки Python, которые вы должны знать
Очень полезные библиотеки Python — Wikipedia, Pandasql, Missingno!
Python известен своим уникальным набором функций и широким спектром библиотек, предлагающих их.
Вот три такие удивительные и мощные библиотеки,
· Wikipedia · Pandasql · Missingno
В этой статье мы обсудим, как искать любую информацию, не выходя из Python IDE, легко извлекать подмножество данных с помощью SQL-запросов и эффективно визуализировать отсутствующие значения. ⚡️
Википедия
Это библиотека Python, которая упрощает доступ к данным из Википедии и их анализ. Используя эту библиотеку, мы можем искать все и вся на wikipedia
, не выходя из Python IDE или Jupyter-Notebook.
Какая польза 💡
Вспомните ситуацию, когда мы находимся в середине проекта и нуждаемся в дополнительных разъяснениях по какому-то термину. Обычно мы гуглим и читаем wikipedia
для начального понимания. Эта библиотека дает вам свободу поиска в Википедии, не выходя из редактора Python.
Как использовать Википедию в Python 🛠️
Только для первого использования установите библиотеку, используя следующую строку кода:
pip install wikipedia
Затем импортируйте библиотеку с помощью import wikipedia
, и вы можете свободно исследовать Интернет в поисках нужного контента. Ниже приведены некоторые стандартные команды для начала работы.
- Установить язык результирующих веб-результатов:
set_lang()
- Поиск по страницам википедии:
search()
- Получить сводку статьи:
summary()
Пример: Как все работает 🚀
Давайте посмотрим, насколько удивительна эта библиотека. Ниже картинка со всеми вышеуказанными командами в действии!
например, давайте поищем термин «Python» на wikipedia
.
Как видите, команда search()
вернет список элементов, которые ищутся как «Python».
Забегая вперед, давайте получим сводку по одному из результатов.
Однако метод summary()
принимает необязательный параметр sentences
, что дает нам возможность получить только несколько первых предложений статьи, как показано ниже.
По умолчанию языком результирующей веб-страницы является английский. Используя метод set_lang()
, мы можем изменить его на любой желаемый язык перед поиском.
например, мы меняем язык на немецкий, а код для немецкого языка — de
.
Подробнее об этой библиотеке можно узнать здесь.
Пандаsql
pandasql
позволяет запрашивать кадры данных pandas с использованием синтаксиса SQL в Python. Он предоставляет гораздо более простой способ манипулирования и очистки данных для людей, плохо знакомых с Python или pandas.
Какая польза 💡
Хотя библиотека Pandas в Python широко используется для обработки и анализа данных, существует множество сценариев, в которых SQL-запросы достаточно эффективны и просты в написании. Следовательно, этот пакет использует возможности SQL для быстрого извлечения подмножества данных из Pandas DataFrame.
Как использовать Pandasql в Python 🛠️
Только при первом использовании начните с установки пакета, используя следующую команду:
pip install pandasql
После установки начните использовать эту библиотеку, импортировав sqldf
, как показано ниже.
from pandasql import sqldf
Этот sqldf
принимает 2 параметра —
- Строка SQL-запроса — требуется
- Набор переменных сеанса/среды — locals() или globals() — необязательный
Пример: Как все работает 🚀
для демонстрации я буду использовать Dummy_Sales_Data, которые я сгенерировал для всех своих статей!
например, выбрав данные, где Категория продукта — «Офис». И запрос SQL для него будет,
SELECT * FROM df WHERE Product_Category = 'Office'
Как я уже упоминал, функция sqldf
принимает строку запроса SQL в качестве входного параметра, мы можем написать строку запроса SQL, как показано ниже.
"SELECT * FROM df WHERE Product_Category = 'Office'"
В качестве последнего и следующего шага давайте получим необходимые данные, как показано ниже.
Кроме того, более сложные SQL-запросы, включая JOIN, также могут быть выполнены с использованием pandasql
.
Все, что вам нужно сделать, это приложить запрос, который вы хотите выполнить, в “ ”
Официальную документацию pandasql
можно найти здесь.
Миссингно
Missingno
— это библиотека Python, которая позволяет понять распределение пропущенных значений с помощью информативных визуализаций.
Какая польза 💡
Одной из часто встречающихся проблем с необработанными данными является Отсутствующие значения. Если в ячейке набора данных нет значения, значит, в нем есть отсутствующее значение. Когда такой набор данных считывается в pandas DataFrame, отсутствующие значения обозначаются NaN
Вместо того, чтобы идентифицировать только NaN
с помощью pandas.DataFrame.isnull()
, pandas.DataFrame.isna()
хорошо визуализировать распределение пропущенных значений в DataFrame.
Как использовать Missingno в Python 🛠️
только для первого использования, начните с установки библиотеки с помощью
pip install missingno
После установки просто импортируйте его в свой текущий блокнот, и вы готовы исследовать
import missingno as msno %matplotlib inline
Пример: Как все работает 🚀
например, в нашем наборе данных у нас есть пропущенные значения, такие как
используя пакет missingno
, распределение пропущенных значений в разных столбцах можно визуализировать всего в 1 строку, как показано ниже.
msno.matrix(df)
На приведенном выше рисунке каждая из этих горизонтальных линий (в красных прямоугольниках) представляет собой набор пропущенных значений. И их положение указывает, где они находятся в наборе данных.
Еще одна полезная визуализация пакета Missingno — это тепловая карта. Чтобы узнать подробности, я рекомендую прочитать эту интересную статью. 🏆
Подводя итоги
Эти библиотеки, особенно pandasql
, экономят мое время почти во всех проектах по науке о данных на Python, и их очень легко освоить. Wikipedia
библиотека также одинаково полезна для поиска чего-либо в вики из самого Jupyter-ноутбука.
Теперь вы можете стать участником Medium, зарегистрировавшись здесь, чтобы читать все истории, опубликованные мной и другими авторами. Если вы это сделаете, я получу небольшую часть вашего гонорара. Не стесняйтесь присоединиться к моему списку адресов электронной почты, чтобы оставаться в курсе моих статей.
Спасибо, что прочитали!