Использование Opendatasets для загрузки различных наборов данных
Начиная свое путешествие в области науки о данных, вы должны получать все больше и больше практических навыков работы с различными наборами данных. Когда я начал свое путешествие в области науки о данных, я начал с набора данных под названием Boston, и я уверен, что все вы, должно быть, использовали этот набор данных, если вы занимаетесь наукой о данных. Точно так же существует множество наборов данных, которые использовались в последнее время, например, набор данных о диабете, MNIST, Cifar-10 и т. Д.
Чтобы получить более глубокое представление о таких отраслях науки о данных, как машинное обучение и глубокое обучение, мы должны работать с различными наборами данных, но проблема в том, что либо эти наборы данных нелегко доступны, либо их нелегко загрузить.
Opendatasets - это библиотека Python с открытым исходным кодом, которая позволяет нам загружать наборы данных с Kaggle и Google Drive всего в одной строке кода. Кроме того, он содержит некоторые тщательно отобранные наборы данных, которые можно легко загрузить.
В этой статье мы рассмотрим, как загружать наборы данных с помощью Opendatasets и использовать их соответствующим образом.
Давайте начнем…
Установка необходимых библиотек
Мы начнем с установки Opendatasets с помощью pip. Команда, представленная ниже, сделает это.
!pip install opendatasets
Импорт необходимых библиотек
На этом этапе мы импортируем необходимую библиотеку isOpendatasets.
import opendatasets as od import pandas as pd
Скачивание наборов данных
Чтобы загружать наборы данных из Kaggle, нам нужен ключ API и наше имя пользователя Kaggle. Ключ API можно загрузить в настройках учетной записи Kaggle, который представляет собой файл JSON, содержащий имя пользователя и ключ. Давайте посмотрим, как мы можем загружать разные наборы данных.
import opendatasets as od dataset_url = 'https://www.kaggle.com/deepankurk/flight-take-off-data-jfk-airport' df = od.download('https://www.kaggle.com/deepankurk/flight-take-off-data-jfk-airport')
После запуска этой строки кода он попросит вас ввести ваше имя пользователя и ключ API, и после этого он загрузит данные в ваш текущий рабочий каталог. Теперь вы можете загрузить эти данные и использовать их соответствующим образом. Точно так же вы можете загрузить любой набор данных из Kaggle, просто передав URL-адрес.
Продолжайте, попробуйте загрузить разные наборы данных. Если у вас возникнут какие-либо трудности, дайте мне знать в разделе ответов.
Эта статья написана в сотрудничестве с Пиюшем Ингале.
Перед тем, как ты уйдешь
Спасибо за чтение! Если вы хотите связаться со мной, свяжитесь со мной по адресу [email protected] или в моем профиле LinkedIn. Вы можете просмотреть мой профиль Github для различных проектов по науке о данных и руководств по пакетам. Кроме того, не стесняйтесь изучать мой профиль и читать разные мои статьи, связанные с наукой о данных.