Использование Opendatasets для загрузки различных наборов данных

Начиная свое путешествие в области науки о данных, вы должны получать все больше и больше практических навыков работы с различными наборами данных. Когда я начал свое путешествие в области науки о данных, я начал с набора данных под названием Boston, и я уверен, что все вы, должно быть, использовали этот набор данных, если вы занимаетесь наукой о данных. Точно так же существует множество наборов данных, которые использовались в последнее время, например, набор данных о диабете, MNIST, Cifar-10 и т. Д.

Чтобы получить более глубокое представление о таких отраслях науки о данных, как машинное обучение и глубокое обучение, мы должны работать с различными наборами данных, но проблема в том, что либо эти наборы данных нелегко доступны, либо их нелегко загрузить.

Opendatasets - это библиотека Python с открытым исходным кодом, которая позволяет нам загружать наборы данных с Kaggle и Google Drive всего в одной строке кода. Кроме того, он содержит некоторые тщательно отобранные наборы данных, которые можно легко загрузить.

В этой статье мы рассмотрим, как загружать наборы данных с помощью Opendatasets и использовать их соответствующим образом.

Давайте начнем…

Установка необходимых библиотек

Мы начнем с установки Opendatasets с помощью pip. Команда, представленная ниже, сделает это.

!pip install opendatasets

Импорт необходимых библиотек

На этом этапе мы импортируем необходимую библиотеку isOpendatasets.

import opendatasets as od
import pandas as pd 

Скачивание наборов данных

Чтобы загружать наборы данных из Kaggle, нам нужен ключ API и наше имя пользователя Kaggle. Ключ API можно загрузить в настройках учетной записи Kaggle, который представляет собой файл JSON, содержащий имя пользователя и ключ. Давайте посмотрим, как мы можем загружать разные наборы данных.

import opendatasets as od
dataset_url = 'https://www.kaggle.com/deepankurk/flight-take-off-data-jfk-airport'
df = od.download('https://www.kaggle.com/deepankurk/flight-take-off-data-jfk-airport')

После запуска этой строки кода он попросит вас ввести ваше имя пользователя и ключ API, и после этого он загрузит данные в ваш текущий рабочий каталог. Теперь вы можете загрузить эти данные и использовать их соответствующим образом. Точно так же вы можете загрузить любой набор данных из Kaggle, просто передав URL-адрес.

Продолжайте, попробуйте загрузить разные наборы данных. Если у вас возникнут какие-либо трудности, дайте мне знать в разделе ответов.

Эта статья написана в сотрудничестве с Пиюшем Ингале.

Перед тем, как ты уйдешь

Спасибо за чтение! Если вы хотите связаться со мной, свяжитесь со мной по адресу [email protected] или в моем профиле LinkedIn. Вы можете просмотреть мой профиль Github для различных проектов по науке о данных и руководств по пакетам. Кроме того, не стесняйтесь изучать мой профиль и читать разные мои статьи, связанные с наукой о данных.