БИБЛИОТЕКА АНАЛИЗА ДАННЫХ PYTHON: PANDAS
Советы и приемы по импорту данных в Pandas из различных источников
Pandas - это библиотека анализа данных Python, которая прочно закрепила свое место в мире науки о данных. Статьи в Интернете о лучших библиотеках Python для науки о данных включают Pandas в качестве одного из своих фаворитов. Библиотека Pandas предлагает несколько функций, которые могут ускорить процессы обработки данных и исследовательского анализа данных. Однако первым шагом для любого проекта Data Science является импорт данных, и здесь также библиотека Pandas предлагает несколько отличных функций. В этой статье показаны способы импорта данных в Pandas из разных источников данных.
В 2008 году Уэс МакКинни начал разработку библиотеки Pandas, чтобы удовлетворить потребность в надежном программном обеспечении для анализа и обработки данных. Концепция Pandas заключалась в том, чтобы предложить бесплатный, мощный, гибкий, быстрый и простой в использовании набор инструментов для анализа данных. В 2009 году Pandas стала библиотекой с открытым исходным кодом и стала неотъемлемой частью сообщества Data Science.
Две основные библиотеки Python, то есть matplotlib и NumPy, являются двумя столпами Pandas. Следовательно, он предлагает простой способ доступа к функциям NumPy и matplotlib с помощью нескольких строк кода. Кроме того, Pandas предлагает несколько функций для чтения и записи данных из / в различные источники данных. В этой статье показано, как импортировать данные из следующих источников в Pandas.
Файл со значениями, разделенными запятыми (CSV):
Файлы CSV хранят данные в табличном формате. Многие общедоступные наборы данных для проектов визуализации данных доступны в этом формате, и, следовательно, это один из наиболее широко используемых источников данных. На рисунке ниже показаны 3 распространенных способа импорта данных CSV в Pandas DataFrame.
Передача пути к CSV-файлу, доступному на компьютере или сервере, функции Pandas read_csv () напрямую импортирует данные в DataFrame.
Функция Pandas read_csv () также позволяет извлекать данные непосредственно из URL-адреса в DataFrame.
Данные буфера обмена:
Pandas предлагает быстрое решение для переноса данных из буфера обмена. Функция Pandas read_clipboard () уникальна; вместо того, чтобы загружать данные в определенную папку и затем импортировать их во фрейм данных, можно скопировать данные (CTRL + C) и запустить их, чтобы сделать данные доступными во фрейме данных. В приведенном ниже примере функция read_clipboard () выполняется после копирования данных из df_import_url (показано выше).
Microsoft Excel:
Функция Pandas read_excel () позволяет считывать данные из таблицы Excel во фрейм данных. Атрибут sheet_name в функции read_excel () сообщает функции, с какого листа извлекать данные. Следовательно, можно создать несколько фреймов данных из одного файла Excel с несколькими листами Excel.
Примечание. Установите библиотеки xlrd и openpyxl, чтобы избежать ошибок.
Текстовый файл со строками фиксированной ширины:
Функция Pandas read_fwf () позволяет читать таблицу с отформатированными строками фиксированной ширины из текстовых файлов. Это мощная функция для извлечения конкретной информации из файла с множеством случайных текстов и таблиц. Например, на рисунке ниже показан файл, содержащий имя, должность и зарплату команды Revengers.
Файл с растушевкой:
Функция Pandas read_feather () предлагает чтение данных из файлов в формате пера. Feather data - это двоичный формат файла с очень высокой производительностью по сравнению с CSV. В приведенном ниже коде показано создание и считывание данных во фрейм данных.
Формат файла иерархических данных:
Широко используемый формат файлов в научной сфере - это файлы HDF. Используя инструменты HDF, можно импортировать эти файлы для анализа и визуализации данных. Однако Pandas устраняет необходимость в инструменте HDF с функцией read_hdf (), предлагая чтение данных из файлов с иерархическим форматом файлов данных. В приведенном ниже коде показано создание и чтение данных HDF во фрейм данных Pandas.
Данные из HTML:
Функция Pandas read_html () предлагает быстрый способ превратить HTML-таблицу во фрейм данных. Эта функция удобна для проектов, связанных со сканированием веб-страниц. На рисунке ниже показаны 2 распространенных сценария импорта HTML-таблиц в Pandas DataFrame.
Когда файл хранится локально:
Получение данных с веб-сайта:
Данные из JSON:
Функция Pandas read_json () позволяет импортировать данные, хранящиеся в файле JSON, во фрейм данных. В файле JSON хранятся данные в удобочитаемом формате. Обмен данными между клиентом и сервером через файлы JSON широко распространен, поскольку файл JSON не зависит от платформы. В приведенном ниже коде показано создание и чтение данных JSON во фрейм данных Pandas.
Данные из базы данных Oracle:
Библиотека cx_Oracle предлагает подключение баз данных Oracle к Python. Чтобы установить соединение, необходимо указать имя пользователя, пароль и источник данных имя.
Данные из BigQuery:
BigQuery - это полностью управляемое хранилище данных, поддерживаемое Google. Он предлагает масштабируемое хранилище данных и быстрый механизм SQL. В этой статье используется Google Cloud SDK для установления соединения между Python и BigQuery.
Вот и все.
В этой статье показано, как импортировать данные из 10 различных источников данных в ваш следующий проект Python на основе Data Science.
Надеюсь, вам понравилась эта статья. Любые вопросы? Я что-то упустил? Пожалуйста, свяжитесь с моими LinkedIn или Twitter.
Перейдите по этой ссылке на Github, чтобы получить доступ ко всем ресурсам, использованным для этой статьи.
Ваше здоровье!
Рахул