Авторы: Маянк Губба, Мохаммед Фейсал, Трапти Калра, Виджай Пандей

Мы все знаем, как модели глубокого обучения используются для точной классификации классов набора данных, в то время как традиционные модели глубокого обучения не могут должным образом классифицировать изображения с большим количеством текстур. Во втором блоге этой серии мы обсудили различные предварительно обученные модели для классификации изображений и причину, по которой они не подходят для классификации текстур.

Были изучены различные методы классификации изображений с богатой текстурой в глубоком обучении. Со временем произошли важные изменения в методах, используемых для классификации текстур. Об идеях, предложенных исследователями ИИ, мы рассказали в третьем блоге этой серии.

Эти отличные идеи хорошо работают для наборов данных на основе текстур, с другой стороны, проблема все еще существует. Один и тот же метод не подходит для всех типов текстур, и разработка новых моделей для каждого нового набора данных на основе текстур нецелесообразна. Чтобы решить эту проблему, мы разработали новую структуру в этой бумаге, с помощью которой мы можем объединить различные методы для достижения самых современных результатов (SOTA) на наборах тестовых данных.

Используя структуру, определенную в документе, мы объединили методы объединения фрактального анализа (FAP), Deep-TEN,и Слой гистограммы для достижения результатов SOTA. Чтобы дополнительно проверить эффективность нашей модели, мы поэкспериментировали с набором данных фабрики, созданным IBM для их возможности визуальной проверки.

Набор данных в основном состоит из поддельных и подлинных изображений огнеупорной ткани, показанных на рис. 1. Набор данных включает 127 изображений поездов, 120 невидимых изображений и 43 изображения для тестирования и проверки каждого.

Ранее для бинарной классификации подлинных и поддельных изображений использовалась архитектура (показана на рис. 2). В этой архитектуре используется магистраль InceptionV3, за которой следует некоторый дополнительный пул, плотный, отсев,и слои пакетной нормализации, а также слои активации и softmax. Эти слои гарантируют, что магистраль точно прогнозирует наш набор данных. Эта архитектура обеспечивает точность набора данных Fabric 97,5 %.

Поскольку эта задача бинарной классификации имеет дело с изображениями, где текстура является одним из важнейших признаков, мы использовали нашу модель, которая уже была предложена в статье, в которой используется набор методов извлечения текстуры. Новая модель дала образцовые результаты со 100% точностью на наборе данных ткани. Ниже на рисунке 3 описана наша архитектура для этого результата.

Поскольку данные задачи классификации могут быть легко решены с использованием методов на основе текстур, наша архитектура, в которой используется хорошо продуманная комбинация методов извлечения признаков текстуры, оказывается надежным методом. Магистраль ResNet18 используется вместе с FAP, Histogram-Layerи Deep-TENметоды извлечения текстур. Мы используем ResNet18, поскольку он менее сложен, чем InceptionV3, поэтому для его обучения требуется меньше параметров.

Помимо исключительных результатов, полученных благодаря нашей новой архитектуре, мы заметили, что в исходной архитектуре количество параметров составляет 38 615 778, тогда как количество параметров в нашей архитектуре составляет 11 839 282. сильный>. Таким образом, количество параметров, задействованных в исходной архитектуре, почти в 3,5раза выше, чем у нас.

Как показано на рис. 4 общее количество параметров, используемых в исходной архитектуре, более чем в три с половиной раза превышает количество параметров, используемых в новой архитектуре.

Объединение различных методов извлечения текстур с магистралью ResNet18 не только сокращает объем вычислений, но и приводит к повышению точности.

Матрица путаницы (рис. 5) для тестовых данных показывает, что исходная архитектура классифицирует 1 поддельное изображение как подлинное, кроме того, остальные все изображения классифицируются однозначно. В то же время, поскольку новая модель обеспечивает точность 100 %, нет изображений, ошибочно отнесенных к неправильным классам.

Мы можем наблюдать аналогичную матрицу путаницы для невидимых данных на рис. 6. Здесь 4 поддельных образца были ошибочно классифицированы оригинальной архитектурой как подлинные, с другой стороны, новая модель классифицирует все образцы без каких-либо ошибок.

Мы также обнаружили кое-что ошеломляющее: наша модель достигает 100% точности проверки всего за 10 эпох, как видно из кривой обучения на рис. 7, напротив, из исходной кривой обучения видно, что точность проверки занимает несколько больше 10 эпох, чтобы достичь стабильной точности 97,5%.

Это существенное повышение точности модели в значительной степени связано с двумя причинами.

  • В традиционном методе из-за глубины сети последние слои модели захватывают сложные функции, которые полезны для обнаружения объектов, а не локальные повторяющиеся узоры текстуры. Классификация такого набора данных с помощью текстуры дает нам преимущество над традиционными методами.
  • Объединение нескольких методов извлечения текстуры дает замечательные результаты, поскольку уникальные и отличные друг от друга методы извлечения признаков текстуры используют различные характеристики текстуры для классификации изображений.

Каркас нашей бумаги не ограничивается только задачами классификации текстур. Та же структура должна работать и для других задач, если экстракторы признаков уникальны и работают с разными аспектами изображения.

За цитатами обращайтесь к нашей бумаге.