Обсуждение под руководством Stephen Tse и Felix Hohne, подгруппа Intelligent Systems
Бумажная цель
Часто неявно предполагается, что модели, которые хорошо работают в ImageNet, будут лучше работать и в других задачах CV. В этой статье проводится эмпирическое исследование того, действительно ли модели, обученные в ImageNet, работают лучше с другими наборами данных CV, потому что они были обучены в ImageNet, или просто потому, что их архитектура хорошо подходит для общих задач CV. В более широком смысле в этой статье обсуждается, подходит ли CV для набора данных ImageNet.
Задний план
Предыстория документа состоит из базовых фундаментальных знаний о современных архитектурах компьютерного зрения и распространенности ImageNet в качестве набора данных, используемого для обучения современных моделей. Кроме того, читатель должен быть знаком с трансферным обучением в компьютерном зрении и двумя методами, которые используются в экспериментах, описанных в статье.
В трансферном обучении обычно используются два типа трансфера:
- Извлечение фиксированных признаков: последний слой обученной сети Image-Net удаляется в пользу линейного классификатора, который выводит предсказание класса по классам нового (целевого) набора данных.
- Точная настройка: веса предварительно обученной модели ImageNet обрабатываются как инициализация модели, обученной на новом (целевом) наборе данных.
Как правило, извлечение фиксированных признаков лучше подходит для задачи переноса, когда данных мало, а распределение похоже на исходное, в то время как точная настройка обычно превосходит извлечение фиксированных признаков при наличии достаточного количества данных.
Бумажные вклады
В документе проводится тщательный статистический анализ, сравнивающий производительность передачи ImageNet с использованием извлечения фиксированных признаков и точной настройки. Используя надежные показатели корреляции Спирмена, они сравнивают, является ли эта корреляция статистически надежной. Их основным вкладом является этот тщательный анализ, отвечающий высокой степени уверенности в том, что улучшенная производительность ImageNet сильно коррелирует с улучшенной производительностью передачи, и обнадеживающе демонстрирующий, что Computer Vision, как поле, не превосходит ImageNet как набор данных.
В парадигме фиксированного извлечения точность Top-1 ImageNet сильно коррелировала с точностью задач передачи с корреляцией (r = 0,99), и для тонкой настройки это также имело место (r = 0,96). Однако это было только в том случае, когда все модели обучались с использованием одних и тех же методов; использование общедоступных контрольно-пропускных пунктов, различия в регуляризации и режиме обучения имели существенное значение. Следовательно, в документе определены 4 ключевых варианта, которые снижают эффективность передачи:
- отсутствие параметра масштаба (γ) для слоев пакетной нормализации
- использование сглаживания меток
- выбывать
- наличие вспомогательной головки классификатора
Эти решения оказали незначительное влияние на производительность ImageNet, но резко снизили производительность передачи. Различия можно увидеть даже при взгляде на вложения t-SNE пространства признаков.
Интересной частью их анализа является то, что они также включают в себя наборы данных с высокой степенью детализации, которые, хотя и небольшие, обычно требуют экспертного уровня для классификации для людей. Хорошим примером этого является Stanford Cars, у которого есть 8 144 обучающих набора данных, но 196 различных марок автомобилей. Они протестировали свои подходы на различных наборах данных, в том числе на мелкозернистых наборах данных, таких как Stanford Cars и FGVC Aircraft. В этом случае трансферное обучение не обязательно улучшает производительность, но увеличивает скорость сходимости в 17 раз.
Вывод
В конечном счете, из-за этой высокой корреляции CV может безопасно продолжать использовать ImageNet в качестве основного эталона для понимания производительности модели CV. Однако не совсем понятно, почему определенные виды регуляризации снижают эффективность передачи, а не, как ожидается, улучшают ее. Тем не менее, это исследование показывает, что всегда лучше начинать с уже обученной модели ImageNet для других задач CV, а не инициализировать случайным образом; даже если прироста производительности не будет, значительно улучшенная скорость сходимости легко окупается.