Построение глубокой сети с использованием исходных цифровых изображений требует изучения многих параметров, которые могут снизить точность. Изображения могут быть сжаты с использованием методов уменьшения размеров, а извлеченные уменьшенные элементы могут быть переданы в глубокую сеть для классификации. Следовательно, на этапе обучения сети количество параметров будет уменьшено. Анализ главных компонентов - это хорошо известный метод уменьшения размерности, который использует ортогональное линейное преобразование исходных данных. В этой статье мы демонстрируем фреймворк на основе нейронной сети под названием Fusion-Net, который реализует PCA для набора данных изображения (CIFAR-10), а затем нейронная сеть применяется к основным компонентам извлечения. Мы также реализовали логистическую регрессию для сокращенного набора данных. Наконец, мы сравниваем результаты использования исходных функций и сокращенных функций. Результаты экспериментов показывают, что Fusion-Net превосходит другие методы.

В этой статье мы применяем фреймворк нейронной сети под названием Fusion-Net для классификации изображений. Реализация состоит из двух шагов:

  1. Мы применяем метод уменьшения размерности (PCA) к исходному набору данных для извлечения основных компонентов.
  2. Извлеченные компоненты затем используются в качестве входных данных для классификаторов машинного обучения, таких как нейронная сеть, логистическая регрессия и т. Д.

Спецификация набора данных

Мы провели эксперименты с набором данных изображения, названным CIFAR. Набор данных CIFAR - это хорошо известные данные изображений для мультиклассовой классификации 10 классов изображений, которые собраны Алексом Крижевски, Винодом Наиром и Джеффри Хинтоном [1]. Изображения в наборе данных содержат 10 различных классов объектов: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик.

Рис. 1 иллюстрирует некоторые образцы изображений с метками классов изображений. В этой статье мы использовали набор данных CIFAR-10, состоящий из 60 000 изображений, которые являются подмножеством набора данных 80 миллионов крошечных изображений (CIFAR). Каждое из изображений в наборе данных представляет собой цветное изображение (содержащее 3 канала) с размерами. Набор данных CIFAR-10 - это сбалансированные данные, каждый из которых содержит 6000 изображений. Мы разделили набор данных на 50 000 обучающих изображений и 10 000 тестовых изображений, сохранив пропорцию классов.

Методы

Fusion-Net состоит из двух основных частей: уменьшения размерности и нейронной сети. На рис. 2 показана архитектура Fusion-Net, в которой нейронная сеть содержит четыре слоя: входной слой, два скрытых слоя и выходной слой. Входной слой содержит нейроны, которые представляют собой количество функций, извлеченных PCA. Первый и второй скрытый слой содержит 128 и 64 нейрона соответственно, а выходной слой включает 10 нейронов, поскольку проблема заключается в классификации по 10 классам. Мы применили категориальную кросс-энтропию в качестве функции потерь и оптимизатор Adaptive Moment Estimation (Adam) для вычисления ошибки и обновления параметров.

Мы представляем три различные версии подхода слияния, в которых сокращенные функции сохраняют 99%, 95% и 90% вариации данных для первой, второй и третьей версий соответственно.

Уменьшение размера

Мы преобразовали каждое из цветных трехмерных изображений в одномерное пространство, чтобы мы могли применить PCA. После преобразования каждое из наблюдений состоит из 32 × 32 × 3 = 3072 функций, и поэтому PCA реализуется в преобразованном наборе данных. Рис. 3 показывает вариацию, объясняемую количеством функций. 99%, 95% и 90% вариации исходных данных можно объяснить первыми 658, 217 и 99 числами основных компонентов соответственно. 80% вариации данных можно извлечь, используя только первые 21 число компонентов.

Мы реализовали логистическую регрессию и нейронную сеть с той же архитектурой на исходном наборе данных.

Оценка производительности на исходном наборе данных CIFAR-10: Мы обучили нейронную сеть на 100 эпох с ранней остановкой, и логистическая регрессия также применила к исходному набору данных. Производительность модели измерялась путем реализации обученной модели на тестовых данных. Таблица I иллюстрирует экспериментальные результаты двух моделей на этом наборе данных.

Нейронная сеть превзошла метод LR и достигла наивысшего показателя точности 0,46, тогда как LR достигла показателя точности 0,3954.

Оценка производительности сокращенного набора данных CIFAR-10: Мы реализовали PCA для исходного набора данных, сократили набор данных и извлекли три разных набора данных, содержащих 658, 217 и 99 функций, которые объясняют 99%, 95% и 90 % вариации исходных данных соответственно.

Мы применили нейронную сеть с той же архитектурой на сокращенных наборах данных. Логистическая регрессия также применяется к сокращенным наборам данных. Таблица II иллюстрирует экспериментальные результаты моделей на наборах данных. Fusion-Net превзошел метод (PCA + LR) и достиг наивысшего показателя точности в трех различных случаях. Используя 99 основных компонентов, Fusion-Net достигла максимальной точности 53,41%. Почти аналогичная точность 0,5307 была получена с 217 функциями. Fusion-Net достиг точности 0,5194 при использовании 658 основных компонентов. Логистическая регрессия достигла почти одинаковой точности для трех сокращенных наборов данных.

Обсуждение

В таблице III показано количество параметров, которые узнает Fusion-Net для разного количества размеров функций. Общее количество параметров уменьшается экспоненциально с уменьшением количества функций. Поскольку количество параметров обучения уменьшается с меньшим количеством функций, стоимость вычислений для обучения также будет уменьшаться с уменьшением набора данных.

Нейронная сеть дала лучшие результаты с уменьшенным набором данных, чем исходный набор данных. С уменьшенными функциями сеть изучает меньшее количество весов, что может быть причиной получения лучших результатов, поскольку мы обучили модель со 100 эпохами. Точно настроенная модель нейронной сети с множеством эпох может превзойти Fusion-Net.

Рис. 4 показывает код, который использовался для построения нейронной сети.

Подводя итог, можно сказать, что методы уменьшения размеров могут применяться к набору данных изображения, чтобы уменьшить количество функций при сохранении закономерностей и тенденций исходного набора данных. Сеть глубокого обучения может быть обучена на сокращенном наборе данных вместо исходных данных, так что количество параметров обучения уменьшится. Мы провели все эксперименты с наборами данных (исходными и сокращенными) для оценки Fusion-Net. Мы оценили производительность Fusion-Nets, сравнив ее с производительностью подхода Fusion LR (PCA + LR). Результаты экспериментов показывают, что Fusion-Net превосходит другие методы.