CIFAR, IMDB, Reuters, MNIST и другие

Это удобно, когда можно получить доступ к наборам данных, не загружая их раньше. Часто, когда наборы данных берутся прямо из источника, данные необходимо преобразовать, очистить и предварительно обработать. Для больших наборов данных НЛП слова должны быть количественно определены, что может занять значительное время для больших наборов данных. В этой статье я расскажу, как загрузить 12 наборов данных с помощью Keras и Scikit-Learn, которые предварительно обработаны и готовы к анализу или введению в модель машинного обучения.

Примечание. Убедитесь, что Интернет включен, при загрузке в такой среде, как Kaggle. Библиотеки получают свои данные из Интернета, поэтому для работы им нужен Интернет. В противном случае выдаст ошибку.

CIFAR10 и CIFAR100

Набор данных Канадского института перспективных исследований (CIFAR-10) содержит 60 000 цветных изображений 32 на 32 в 10 различных классах. 10 различных классов: самолеты, автомобили, птицы, кошки, олени, собаки, лягушки, лошади, корабли и грузовики. Есть 6000 изображений каждого класса. Набор данных CIFAR-100 состоит из 100 различных классов.

Наборы данных CIFAR-10 и CIFAR-100 обычно используются для оценки методов глубокого обучения распознавания изображений. На веб-сайте CIFAR есть наборы данных, доступные для загрузки, но требующие раздражающего восстановления и преобразования данных. У Кераса этот набор данных легко доступен через:

#to import cifar10
import keras
from keras.datasets import cifar10  
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
#to import cifar100
import keras
from keras.datasets import cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data()

Набор данных настроения обзоров фильмов IMDB

Набор данных настроения обзоров фильмов IMDB состоит из 25 000 обзоров фильмов от IMDB, сгруппированных по настроениям (положительные / отрицательные). Обзоры были предварительно обработаны, и каждый отзыв закодирован как последовательность индексов слов. Слова индексируются по общей частоте в наборе данных, так что, например, целое число «3» кодирует третье по частоте слово в данных. Это означает, что не нужно выполнять беспорядочную предварительную обработку NLP.

Этот набор данных часто используется для тестирования методов обработки естественного языка из-за обилия данных, двоичной классификации и согласованности в контексте.

Библиотека Keras может помочь -

import keras
from keras.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",num_words=None,skip_top=0, maxlen=None,seed=1,start_char=1,oov_char=2,index_from=3)

Классификация тем новостей Reuters

Набор данных классификации новостей Reuters, состоящий из 11 228 новостных лент Reuters, по 46 темам. Как и в случае с набором данных IMDB, каждый провод кодируется как последовательность индексов слов (аналогично набору данных IMDB).

import keras
from keras.datasets import reuters
(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",num_words=None,skip_top=0, maxlen=None,test_split=0.2,seed=1,start_char=1,oov_char=2,index_from=3)
#Access word index
word_index = reuters.get_word_index(path="reuters_word_index.json")

Рукописные цифры MNIST

База данных MNIST состоит из 60 000 обучающих изображений и 10 000 тестовых изображений, состоящих из 28 на 28 пикселей изображений рукописных цифр от 0 до 9.

База данных MNIST - эталонный стандарт для тестирования распознавания изображений. В Keras реализован MNIST в формате, удобном для загрузки (исходная база данных MNIST требует некоторой предварительной обработки):

import keras
from keras.datasets import mnist  
(x_train, y_train), (x_test, y_test) = mnist.load_data()

Мода MNIST

Набор данных Fashion MNIST состоит из 60 000 изображений в оттенках серого 28 на 28 из 10 категорий моды, а также тестового набора из 10 000 изображений.

Этот набор данных можно использовать как замену для MNIST. Ярлыки класса:

Реализация Keras набора данных MNIST Fashion:

import keras
from keras.datasets import fashion_mnist  
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

Бостонская регрессия цен на жилье

Набор данных о ценах на жилье в Бостоне взят из библиотеки StatLib, которая хранится в Университете Карнеги-Меллона. Выборки содержат 13 атрибутов домов в разных местах в пригородах Бостона в конце 1970-х годов, а целевые значения - это средние значения домов в определенном месте.

Набор данных Boston Housing считается эталонным набором данных для алгоритмов регрессии.

import keras
from keras.datasets import boston_housing  
(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

Набор данных растений ириса

Знаменитый набор данных Iris Plants Dataset состоит из четырех функций с размерами растения и мишени 3-го класса для видов ириса и поддерживается репозиторием машинного обучения Калифорнийского университета в Ирвине.

import sklearn
data = sklearn.datasets.load_iris()

Набор данных о диабете

Набор данных по диабету состоит из десяти исходных переменных: возраста, пола, индекса массы тела, среднего кровяного давления и шести измерений сыворотки крови. Они были получены для каждого из 442 пациентов с диабетом. Целевой показатель - это количественный показатель прогрессирования заболевания через год после исходного уровня.

import sklearn
data = sklearn.datasets.load_diabetes()

Набор данных распознавания вин

Набор данных UCI Wine Recognition Dataset состоит из 13 количественных показателей вина и целевого значения 3-го класса, представляющего тип вина. Этот знаменитый набор данных является еще одним эталоном для алгоритмов мультиклассовой классификации.

import sklearn
data = sklearn.datasets.load_wine()

Набор диагностических данных рака молочной железы в Висконсине

Знаменитый набор диагностических данных рака груди в Висконсине состоит из 30 числовых характеристик, описывающих раковую клетку с окончательным бинарным целевым диагнозом злокачественной или доброкачественной. Этот набор данных является эталонным набором данных для высокой размерности и использования PCA для помощи в классификации.

import sklearn
data = sklearn.datasets.load_breast_cancer()

Набор данных Olivetti Faces

Набор данных Olivetti Faces, собранный AT&T Laboratories Cambridge, представляет собой набор из 400 изображений 40 разных людей размером 64 на 64 пикселя. Цель состоит в том, чтобы идентифицировать личность человека. Этот набор данных особенно полезен при оценке производительности алгоритмов распознавания изображений в наборах данных с несколькими классами и небольшим объемом обучающих данных.

import sklearn
data = sklearn.datasets.fetch_olivetti_faces()

Надеюсь, вам понравилась эта статья! Если да, не стесняйтесь ознакомиться с некоторыми из моих других работ.