CIFAR, IMDB, Reuters, MNIST и другие
Это удобно, когда можно получить доступ к наборам данных, не загружая их раньше. Часто, когда наборы данных берутся прямо из источника, данные необходимо преобразовать, очистить и предварительно обработать. Для больших наборов данных НЛП слова должны быть количественно определены, что может занять значительное время для больших наборов данных. В этой статье я расскажу, как загрузить 12 наборов данных с помощью Keras и Scikit-Learn, которые предварительно обработаны и готовы к анализу или введению в модель машинного обучения.
Примечание. Убедитесь, что Интернет включен, при загрузке в такой среде, как Kaggle. Библиотеки получают свои данные из Интернета, поэтому для работы им нужен Интернет. В противном случае выдаст ошибку.
CIFAR10 и CIFAR100
Набор данных Канадского института перспективных исследований (CIFAR-10) содержит 60 000 цветных изображений 32 на 32 в 10 различных классах. 10 различных классов: самолеты, автомобили, птицы, кошки, олени, собаки, лягушки, лошади, корабли и грузовики. Есть 6000 изображений каждого класса. Набор данных CIFAR-100 состоит из 100 различных классов.
Наборы данных CIFAR-10 и CIFAR-100 обычно используются для оценки методов глубокого обучения распознавания изображений. На веб-сайте CIFAR есть наборы данных, доступные для загрузки, но требующие раздражающего восстановления и преобразования данных. У Кераса этот набор данных легко доступен через:
#to import cifar10 import keras from keras.datasets import cifar10 (x_train, y_train), (x_test, y_test) = cifar10.load_data() #to import cifar100 import keras from keras.datasets import cifar100 (x_train, y_train), (x_test, y_test) = cifar100.load_data()
Набор данных настроения обзоров фильмов IMDB
Набор данных настроения обзоров фильмов IMDB состоит из 25 000 обзоров фильмов от IMDB, сгруппированных по настроениям (положительные / отрицательные). Обзоры были предварительно обработаны, и каждый отзыв закодирован как последовательность индексов слов. Слова индексируются по общей частоте в наборе данных, так что, например, целое число «3» кодирует третье по частоте слово в данных. Это означает, что не нужно выполнять беспорядочную предварительную обработку NLP.
Этот набор данных часто используется для тестирования методов обработки естественного языка из-за обилия данных, двоичной классификации и согласованности в контексте.
Библиотека Keras может помочь -
import keras from keras.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",num_words=None,skip_top=0, maxlen=None,seed=1,start_char=1,oov_char=2,index_from=3)
Классификация тем новостей Reuters
Набор данных классификации новостей Reuters, состоящий из 11 228 новостных лент Reuters, по 46 темам. Как и в случае с набором данных IMDB, каждый провод кодируется как последовательность индексов слов (аналогично набору данных IMDB).
import keras from keras.datasets import reuters (x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",num_words=None,skip_top=0, maxlen=None,test_split=0.2,seed=1,start_char=1,oov_char=2,index_from=3) #Access word index word_index = reuters.get_word_index(path="reuters_word_index.json")
Рукописные цифры MNIST
База данных MNIST состоит из 60 000 обучающих изображений и 10 000 тестовых изображений, состоящих из 28 на 28 пикселей изображений рукописных цифр от 0 до 9.
База данных MNIST - эталонный стандарт для тестирования распознавания изображений. В Keras реализован MNIST в формате, удобном для загрузки (исходная база данных MNIST требует некоторой предварительной обработки):
import keras from keras.datasets import mnist (x_train, y_train), (x_test, y_test) = mnist.load_data()
Мода MNIST
Набор данных Fashion MNIST состоит из 60 000 изображений в оттенках серого 28 на 28 из 10 категорий моды, а также тестового набора из 10 000 изображений.
Этот набор данных можно использовать как замену для MNIST. Ярлыки класса:
Реализация Keras набора данных MNIST Fashion:
import keras from keras.datasets import fashion_mnist (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
Бостонская регрессия цен на жилье
Набор данных о ценах на жилье в Бостоне взят из библиотеки StatLib, которая хранится в Университете Карнеги-Меллона. Выборки содержат 13 атрибутов домов в разных местах в пригородах Бостона в конце 1970-х годов, а целевые значения - это средние значения домов в определенном месте.
Набор данных Boston Housing считается эталонным набором данных для алгоритмов регрессии.
import keras from keras.datasets import boston_housing (x_train, y_train), (x_test, y_test) = boston_housing.load_data()
Набор данных растений ириса
Знаменитый набор данных Iris Plants Dataset состоит из четырех функций с размерами растения и мишени 3-го класса для видов ириса и поддерживается репозиторием машинного обучения Калифорнийского университета в Ирвине.
import sklearn data = sklearn.datasets.load_iris()
Набор данных о диабете
Набор данных по диабету состоит из десяти исходных переменных: возраста, пола, индекса массы тела, среднего кровяного давления и шести измерений сыворотки крови. Они были получены для каждого из 442 пациентов с диабетом. Целевой показатель - это количественный показатель прогрессирования заболевания через год после исходного уровня.
import sklearn data = sklearn.datasets.load_diabetes()
Набор данных распознавания вин
Набор данных UCI Wine Recognition Dataset состоит из 13 количественных показателей вина и целевого значения 3-го класса, представляющего тип вина. Этот знаменитый набор данных является еще одним эталоном для алгоритмов мультиклассовой классификации.
import sklearn data = sklearn.datasets.load_wine()
Набор диагностических данных рака молочной железы в Висконсине
Знаменитый набор диагностических данных рака груди в Висконсине состоит из 30 числовых характеристик, описывающих раковую клетку с окончательным бинарным целевым диагнозом злокачественной или доброкачественной. Этот набор данных является эталонным набором данных для высокой размерности и использования PCA для помощи в классификации.
import sklearn data = sklearn.datasets.load_breast_cancer()
Набор данных Olivetti Faces
Набор данных Olivetti Faces, собранный AT&T Laboratories Cambridge, представляет собой набор из 400 изображений 40 разных людей размером 64 на 64 пикселя. Цель состоит в том, чтобы идентифицировать личность человека. Этот набор данных особенно полезен при оценке производительности алгоритмов распознавания изображений в наборах данных с несколькими классами и небольшим объемом обучающих данных.
import sklearn data = sklearn.datasets.fetch_olivetti_faces()
Надеюсь, вам понравилась эта статья! Если да, не стесняйтесь ознакомиться с некоторыми из моих других работ.