БИБЛИОТЕКА АНАЛИЗА ДАННЫХ PYTHON: PANDAS

Советы и приемы по импорту данных в Pandas из различных источников

Pandas - это библиотека анализа данных Python, которая прочно закрепила свое место в мире науки о данных. Статьи в Интернете о лучших библиотеках Python для науки о данных включают Pandas в качестве одного из своих фаворитов. Библиотека Pandas предлагает несколько функций, которые могут ускорить процессы обработки данных и исследовательского анализа данных. Однако первым шагом для любого проекта Data Science является импорт данных, и здесь также библиотека Pandas предлагает несколько отличных функций. В этой статье показаны способы импорта данных в Pandas из разных источников данных.

В 2008 году Уэс МакКинни начал разработку библиотеки Pandas, чтобы удовлетворить потребность в надежном программном обеспечении для анализа и обработки данных. Концепция Pandas заключалась в том, чтобы предложить бесплатный, мощный, гибкий, быстрый и простой в использовании набор инструментов для анализа данных. В 2009 году Pandas стала библиотекой с открытым исходным кодом и стала неотъемлемой частью сообщества Data Science.

Две основные библиотеки Python, то есть matplotlib и NumPy, являются двумя столпами Pandas. Следовательно, он предлагает простой способ доступа к функциям NumPy и matplotlib с помощью нескольких строк кода. Кроме того, Pandas предлагает несколько функций для чтения и записи данных из / в различные источники данных. В этой статье показано, как импортировать данные из следующих источников в Pandas.

Файл со значениями, разделенными запятыми (CSV):

Файлы CSV хранят данные в табличном формате. Многие общедоступные наборы данных для проектов визуализации данных доступны в этом формате, и, следовательно, это один из наиболее широко используемых источников данных. На рисунке ниже показаны 3 распространенных способа импорта данных CSV в Pandas DataFrame.

Передача пути к CSV-файлу, доступному на компьютере или сервере, функции Pandas read_csv () напрямую импортирует данные в DataFrame.

Функция Pandas read_csv () также позволяет извлекать данные непосредственно из URL-адреса в DataFrame.

Данные буфера обмена:

Pandas предлагает быстрое решение для переноса данных из буфера обмена. Функция Pandas read_clipboard () уникальна; вместо того, чтобы загружать данные в определенную папку и затем импортировать их во фрейм данных, можно скопировать данные (CTRL + C) и запустить их, чтобы сделать данные доступными во фрейме данных. В приведенном ниже примере функция read_clipboard () выполняется после копирования данных из df_import_url (показано выше).

Microsoft Excel:

Функция Pandas read_excel () позволяет считывать данные из таблицы Excel во фрейм данных. Атрибут sheet_name в функции read_excel () сообщает функции, с какого листа извлекать данные. Следовательно, можно создать несколько фреймов данных из одного файла Excel с несколькими листами Excel.

Примечание. Установите библиотеки xlrd и openpyxl, чтобы избежать ошибок.

Текстовый файл со строками фиксированной ширины:

Функция Pandas read_fwf () позволяет читать таблицу с отформатированными строками фиксированной ширины из текстовых файлов. Это мощная функция для извлечения конкретной информации из файла с множеством случайных текстов и таблиц. Например, на рисунке ниже показан файл, содержащий имя, должность и зарплату команды Revengers.

Файл с растушевкой:

Функция Pandas read_feather () предлагает чтение данных из файлов в формате пера. Feather data - это двоичный формат файла с очень высокой производительностью по сравнению с CSV. В приведенном ниже коде показано создание и считывание данных во фрейм данных.

Формат файла иерархических данных:

Широко используемый формат файлов в научной сфере - это файлы HDF. Используя инструменты HDF, можно импортировать эти файлы для анализа и визуализации данных. Однако Pandas устраняет необходимость в инструменте HDF с функцией read_hdf (), предлагая чтение данных из файлов с иерархическим форматом файлов данных. В приведенном ниже коде показано создание и чтение данных HDF во фрейм данных Pandas.

Данные из HTML:

Функция Pandas read_html () предлагает быстрый способ превратить HTML-таблицу во фрейм данных. Эта функция удобна для проектов, связанных со сканированием веб-страниц. На рисунке ниже показаны 2 распространенных сценария импорта HTML-таблиц в Pandas DataFrame.

Когда файл хранится локально:

Получение данных с веб-сайта:

Данные из JSON:

Функция Pandas read_json () позволяет импортировать данные, хранящиеся в файле JSON, во фрейм данных. В файле JSON хранятся данные в удобочитаемом формате. Обмен данными между клиентом и сервером через файлы JSON широко распространен, поскольку файл JSON не зависит от платформы. В приведенном ниже коде показано создание и чтение данных JSON во фрейм данных Pandas.

Данные из базы данных Oracle:

Библиотека cx_Oracle предлагает подключение баз данных Oracle к Python. Чтобы установить соединение, необходимо указать имя пользователя, пароль и источник данных имя.

Данные из BigQuery:

BigQuery - это полностью управляемое хранилище данных, поддерживаемое Google. Он предлагает масштабируемое хранилище данных и быстрый механизм SQL. В этой статье используется Google Cloud SDK для установления соединения между Python и BigQuery.

Вот и все.

В этой статье показано, как импортировать данные из 10 различных источников данных в ваш следующий проект Python на основе Data Science.

Надеюсь, вам понравилась эта статья. Любые вопросы? Я что-то упустил? Пожалуйста, свяжитесь с моими LinkedIn или Twitter.

Перейдите по этой ссылке на Github, чтобы получить доступ ко всем ресурсам, использованным для этой статьи.

Ваше здоровье!

Рахул