Документ: https://openaccess.thecvf.com/content_CVPR_2019/papers/Kornblith_Do_Better_ImageNet_Models_Transfer_Better_CVPR_2019_paper.pdf

Обсуждение под руководством Stephen Tse и Felix Hohne, подгруппа Intelligent Systems

Бумажная цель

Часто неявно предполагается, что модели, которые хорошо работают в ImageNet, будут лучше работать и в других задачах CV. В этой статье проводится эмпирическое исследование того, действительно ли модели, обученные в ImageNet, работают лучше с другими наборами данных CV, потому что они были обучены в ImageNet, или просто потому, что их архитектура хорошо подходит для общих задач CV. В более широком смысле в этой статье обсуждается, подходит ли CV для набора данных ImageNet.

Задний план

Предыстория документа состоит из базовых фундаментальных знаний о современных архитектурах компьютерного зрения и распространенности ImageNet в качестве набора данных, используемого для обучения современных моделей. Кроме того, читатель должен быть знаком с трансферным обучением в компьютерном зрении и двумя методами, которые используются в экспериментах, описанных в статье.

В трансферном обучении обычно используются два типа трансфера:

  1. Извлечение фиксированных признаков: последний слой обученной сети Image-Net удаляется в пользу линейного классификатора, который выводит предсказание класса по классам нового (целевого) набора данных.
  2. Точная настройка: веса предварительно обученной модели ImageNet обрабатываются как инициализация модели, обученной на новом (целевом) наборе данных.

Как правило, извлечение фиксированных признаков лучше подходит для задачи переноса, когда данных мало, а распределение похоже на исходное, в то время как точная настройка обычно превосходит извлечение фиксированных признаков при наличии достаточного количества данных.

Бумажные вклады

В документе проводится тщательный статистический анализ, сравнивающий производительность передачи ImageNet с использованием извлечения фиксированных признаков и точной настройки. Используя надежные показатели корреляции Спирмена, они сравнивают, является ли эта корреляция статистически надежной. Их основным вкладом является этот тщательный анализ, отвечающий высокой степени уверенности в том, что улучшенная производительность ImageNet сильно коррелирует с улучшенной производительностью передачи, и обнадеживающе демонстрирующий, что Computer Vision, как поле, не превосходит ImageNet как набор данных.

В парадигме фиксированного извлечения точность Top-1 ImageNet сильно коррелировала с точностью задач передачи с корреляцией (r = 0,99), и для тонкой настройки это также имело место (r = 0,96). Однако это было только в том случае, когда все модели обучались с использованием одних и тех же методов; использование общедоступных контрольно-пропускных пунктов, различия в регуляризации и режиме обучения имели существенное значение. Следовательно, в документе определены 4 ключевых варианта, которые снижают эффективность передачи:

  1. отсутствие параметра масштаба (γ) для слоев пакетной нормализации
  2. использование сглаживания меток
  3. выбывать
  4. наличие вспомогательной головки классификатора

Эти решения оказали незначительное влияние на производительность ImageNet, но резко снизили производительность передачи. Различия можно увидеть даже при взгляде на вложения t-SNE пространства признаков.

Интересной частью их анализа является то, что они также включают в себя наборы данных с высокой степенью детализации, которые, хотя и небольшие, обычно требуют экспертного уровня для классификации для людей. Хорошим примером этого является Stanford Cars, у которого есть 8 144 обучающих набора данных, но 196 различных марок автомобилей. Они протестировали свои подходы на различных наборах данных, в том числе на мелкозернистых наборах данных, таких как Stanford Cars и FGVC Aircraft. В этом случае трансферное обучение не обязательно улучшает производительность, но увеличивает скорость сходимости в 17 раз.

Вывод

В конечном счете, из-за этой высокой корреляции CV может безопасно продолжать использовать ImageNet в качестве основного эталона для понимания производительности модели CV. Однако не совсем понятно, почему определенные виды регуляризации снижают эффективность передачи, а не, как ожидается, улучшают ее. Тем не менее, это исследование показывает, что всегда лучше начинать с уже обученной модели ImageNet для других задач CV, а не инициализировать случайным образом; даже если прироста производительности не будет, значительно улучшенная скорость сходимости легко окупается.