Библиотеки Python

3 удивительные библиотеки Python, которые вы должны знать

Очень полезные библиотеки Python — Wikipedia, Pandasql, Missingno!

Python известен своим уникальным набором функций и широким спектром библиотек, предлагающих их.

Вот три такие удивительные и мощные библиотеки,

· Wikipedia
· Pandasql
· Missingno

В этой статье мы обсудим, как искать любую информацию, не выходя из Python IDE, легко извлекать подмножество данных с помощью SQL-запросов и эффективно визуализировать отсутствующие значения. ⚡️

Википедия

Это библиотека Python, которая упрощает доступ к данным из Википедии и их анализ. Используя эту библиотеку, мы можем искать все и вся на wikipedia, не выходя из Python IDE или Jupyter-Notebook.

Какая польза 💡

Вспомните ситуацию, когда мы находимся в середине проекта и нуждаемся в дополнительных разъяснениях по какому-то термину. Обычно мы гуглим и читаем wikipedia для начального понимания. Эта библиотека дает вам свободу поиска в Википедии, не выходя из редактора Python.

Как использовать Википедию в Python 🛠️

Только для первого использования установите библиотеку, используя следующую строку кода:

pip install wikipedia

Затем импортируйте библиотеку с помощью import wikipedia, и вы можете свободно исследовать Интернет в поисках нужного контента. Ниже приведены некоторые стандартные команды для начала работы.

  • Установить язык результирующих веб-результатов: set_lang()
  • Поиск по страницам википедии: search()
  • Получить сводку статьи: summary()

Пример: Как все работает 🚀

Давайте посмотрим, насколько удивительна эта библиотека. Ниже картинка со всеми вышеуказанными командами в действии!

например, давайте поищем термин «Python» на wikipedia.

Как видите, команда search() вернет список элементов, которые ищутся как «Python».

Забегая вперед, давайте получим сводку по одному из результатов.

Однако метод summary() принимает необязательный параметр sentences, что дает нам возможность получить только несколько первых предложений статьи, как показано ниже.

По умолчанию языком результирующей веб-страницы является английский. Используя метод set_lang(), мы можем изменить его на любой желаемый язык перед поиском.

например, мы меняем язык на немецкий, а код для немецкого языка — de .

Подробнее об этой библиотеке можно узнать здесь.

Пандаsql

pandasql позволяет запрашивать кадры данных pandas с использованием синтаксиса SQL в Python. Он предоставляет гораздо более простой способ манипулирования и очистки данных для людей, плохо знакомых с Python или pandas.

Какая польза 💡

Хотя библиотека Pandas в Python широко используется для обработки и анализа данных, существует множество сценариев, в которых SQL-запросы достаточно эффективны и просты в написании. Следовательно, этот пакет использует возможности SQL для быстрого извлечения подмножества данных из Pandas DataFrame.

Как использовать Pandasql в Python 🛠️

Только при первом использовании начните с установки пакета, используя следующую команду:

pip install pandasql

После установки начните использовать эту библиотеку, импортировав sqldf, как показано ниже.

from pandasql import sqldf

Этот sqldf принимает 2 параметра —

  1. Строка SQL-запроса — требуется
  2. Набор переменных сеанса/среды — locals() или globals() — необязательный

Пример: Как все работает 🚀

для демонстрации я буду использовать Dummy_Sales_Data, которые я сгенерировал для всех своих статей!

например, выбрав данные, где Категория продукта — «Офис». И запрос SQL для него будет,

SELECT * FROM df WHERE Product_Category = 'Office'

Как я уже упоминал, функция sqldf принимает строку запроса SQL в качестве входного параметра, мы можем написать строку запроса SQL, как показано ниже.

"SELECT * FROM df WHERE Product_Category = 'Office'"

В качестве последнего и следующего шага давайте получим необходимые данные, как показано ниже.

Кроме того, более сложные SQL-запросы, включая JOIN, также могут быть выполнены с использованием pandasql.

Все, что вам нужно сделать, это приложить запрос, который вы хотите выполнить, в “ ”

Официальную документацию pandasql можно найти здесь.

Миссингно

Missingno — это библиотека Python, которая позволяет понять распределение пропущенных значений с помощью информативных визуализаций.

Какая польза 💡

Одной из часто встречающихся проблем с необработанными данными является Отсутствующие значения. Если в ячейке набора данных нет значения, значит, в нем есть отсутствующее значение. Когда такой набор данных считывается в pandas DataFrame, отсутствующие значения обозначаются NaN

Вместо того, чтобы идентифицировать только NaN с помощью pandas.DataFrame.isnull(), pandas.DataFrame.isna() хорошо визуализировать распределение пропущенных значений в DataFrame.

Как использовать Missingno в Python 🛠️

только для первого использования, начните с установки библиотеки с помощью

pip install missingno

После установки просто импортируйте его в свой текущий блокнот, и вы готовы исследовать

import missingno as msno
%matplotlib inline

Пример: Как все работает 🚀

например, в нашем наборе данных у нас есть пропущенные значения, такие как

используя пакет missingno, распределение пропущенных значений в разных столбцах можно визуализировать всего в 1 строку, как показано ниже.

msno.matrix(df)

На приведенном выше рисунке каждая из этих горизонтальных линий (в красных прямоугольниках) представляет собой набор пропущенных значений. И их положение указывает, где они находятся в наборе данных.

Еще одна полезная визуализация пакета Missingno — это тепловая карта. Чтобы узнать подробности, я рекомендую прочитать эту интересную статью. 🏆



Подводя итоги

Эти библиотеки, особенно pandasql, экономят мое время почти во всех проектах по науке о данных на Python, и их очень легко освоить. Wikipedia библиотека также одинаково полезна для поиска чего-либо в вики из самого Jupyter-ноутбука.

Теперь вы можете стать участником Medium, зарегистрировавшись здесь, чтобы читать все истории, опубликованные мной и другими авторами. Если вы это сделаете, я получу небольшую часть вашего гонорара. Не стесняйтесь присоединиться к моему списку адресов электронной почты, чтобы оставаться в курсе моих статей.

Спасибо, что прочитали!