Переосмысление предтренировки и самообучения

Резюме доклада: «Переосмысление предтренинга и самообучения»

Авторы доклада: Баррет Зоф, Гольназ Гиаси, Цун-И Лин, Инь Цуй, Ханьсяо Лю, Экин Д. Кубук, Куок В. Ле

Абстрактный:

Предтренинг используется постоянно! Мы используем веса, предварительно обученные в ImageNet, для всех видов других моделей. Но одна статья показала, что предварительная подготовка имела ограниченное влияние на COCO для обнаружения объектов. Эта статья посвящена теме Самоподготовки и предварительной подготовки!

Основные выводы из статьи:

Чем более сильное увеличение данных + больше маркированных данных, тем ниже значение предварительного обучения
Самообучение, с другой стороны, лучше при увеличении объема данных + помеченных данных
Самостоятельная подготовка может улучшить предварительную тренировку

Эта газета получила СОТА на COCO и PASCAL!

Вступление:

В настоящее время предварительное обучение стало обычной практикой - вы обучаете модель на одном наборе данных, а затем используете те же веса в качестве отправной точки для обучения других наборов данных.

Но самообучение - полная противоположность. Допустим, у вас есть ImageNet и COCO. Ваша основная цель - получить хорошую модель на COCO. Сначала вы обучаете его на COCO, чтобы получить модель учителя. Вы отбрасываете ярлыки ImageNet и используете модель учителя для вывода на ImageNet. Затем вы используете ImageNet с псевдонимом + с пометкой COCO для обучения модели учащегося.

Он работает настолько хорошо, что люди ставят под сомнение ценность предварительной подготовки и когда вместо нее можно использовать самообучение. Настоящая статья призвана ответить на этот вопрос.

Одним из примеров может быть использование большого количества дополнений данных. При использовании предварительного обучения с сильным увеличением данных это снижает точность на -1,0AP. Используя ту же настройку, самообучение в конечном итоге улучшилось на + 1,3AP!

Также: есть предварительное обучение под присмотром в ImageNet и предварительное обучение без учителя в ImageNet. Но оба достигают одного и того же результата: сильно пострадали от сильного увеличения данных + пострадали от более маркированных данных.

Но работа не умаляет ценности предварительной подготовки. Предварительное обучение по-прежнему ценно (по сравнению с обучением с нуля) с точки зрения ускорения процесса в 1,3–8 раз в зависимости от таких факторов, как: качество предварительно обученной модели, сила увеличения данных и размер набора данных.

Связанных с работой:

Предварительная подготовка имеет долгую историю. Это было еще в 2000-х - проводилась неконтролируемая предтренировка. Предварительное обучение используется для НЛП и компьютерного зрения (особенно контролируемое предварительное обучение для CV).

Но недавно была проведена работа, которая показала, что предварительное обучение не всегда хорошо, когда задачи слишком разные (COCO). В одном исследовании было обнаружено, что обучение с нуля лучше, чем предварительное обучение (когда была сильная регуляризация). Другой документ показал, что предварительное обучение не требуется для семантической сегментации или классификации медицинских изображений.

В этом документе содержится более подробная информация, чем в этих статьях, - в нем рассматриваются вопросы увеличения данных, различных методов предварительного обучения и различных контрольных точек, прошедших предварительное обучение. Но в статье не изучается целевое предварительное обучение, потому что оно дорогое, не масштабируемое, и есть свидетельства того, что это не улучшает результаты.

В этой статье говорится о самообучении. Были опубликованы статьи о самообучении с множеством различных задач. Но они никогда не сравнивали самообучение с предварительным обучением.

Методология:

Методы и факторы контроля:

Увеличение данных. У нас есть 4 различных настройки увеличения - FlipCrop, AutoAugment, Extreme AutoAugment и Extreme RandAugment. Эти ребята упоминаются как: Augment-S {1..4}

Предварительная подготовка: у нас есть 3 различных предварительной настройки - ImageNet (84,5%), ImageNet ++ (86,9%) и Rand Init (случайная инициализация).

Самообучение: Есть 3 шага: 1. Обучить модель на COCO, 2. Разорвать ярлыки ImageNet + Нанести ярлык, созданный моделью, 3. Обучить новую сеть на помеченном COCO + Псевдо помеченном ImageNet. Кроме того, они используют метод нормализации потерь для уменьшения нестабильности.

Дополнительные экспериментальные настройки:

{Они подробно описывают экспериментальную установку обнаружения объектов и семантической сегментации}

Эксперименты:

Они отмечают, что чем сильнее увеличение, тем слабее получается предварительная тренировка по сравнению с тренировкой с нуля. Кроме того, чем больше данных вы вводите в модель, тем слабее она получает по сравнению с обучением с нуля, но мы видим, что предварительное обучение по-прежнему помогает, когда мы у меня мало данных.

Но самообучение все еще помогает, когда у нас есть более сильное увеличение. И это по-прежнему помогает, когда у нас есть больше данных. Мы даже можем добавить самообучение к предварительному обучению:

Они также экспериментировали с предварительным обучением без учителя - это то же самое, что и предварительное обучение с учителем.

Используя только что полученные знания, они пошли за SOTA. И получил!

Для COCO они использовали набор данных Open Images вместо ImageNet. Они получили SOTA на +1,5 AP.

Для PASCAL VOC данных было не так много, поэтому они использовали Самообучение поверх предварительно натренированных весов (ImageNet ++). В части самообучения они обучили его на ImageNet и PASCAL. (В других методах, в которых использовалось предварительное обучение, использовалось в 250 раз больше маркированных данных классификации изображений и в 86 раз больше маркированных данных сегментации). Но эта газета все же превзошла их:

Обсуждение:

Универсальное представление - это когда вы усваиваете хорошее представление, которое можно использовать для множества задач, но этот документ ясно показывает, что предварительное обучение не позволяет этого. Похоже, что предварительное обучение не может адаптироваться к новым задачам (предварительно обученные веса блокируют возможность освоения новых функций, которые были бы полезны). Самообучение адаптируется к текущей задаче, поэтому приносит пользу.

Совместное обучение многообещающе. Они вместе обучили ImageNet и COCO. Он смог сойтись намного быстрее и получить гораздо более высокие результаты. А когда мы добавили совместное обучение и самообучение, мы получили гораздо лучшие результаты.

Выравнивание задач имеет большое значение. Обучение псевдометкам лучше, чем обучение большему количеству (хотя и более шумному) данных:

Ограничения состоят в том, что для самообучения требуется гораздо больше вычислений, чем для предварительного обучения. Плюс предварительная тренировка ускоряет обучение + подходит для режимов с низким объемом данных.

Но есть много преимуществ самообучения: гибкость, универсальность и масштабируемость. Самообучение является гибким (оно работало в каждом эксперименте, который они пробовали (количество данных, количество дополнений, тип сети, источник данных, задачи)).

Самообучение может хорошо работать в сценариях, даже если предварительная тренировка не дает результатов. Самостоятельное обучение становится лучше с большим объемом данных и лучшими моделями. Таким образом, мы можем использовать больше данных, вычислять и контролировать рецепты обучения, и мы будем получать все лучшие и лучшие результаты!

Эта работа была посвящена обнаружению и сегментации объектов. Но мы можем применить его к другим областям, другим областям резюме, NLP, распознаванию речи, биоинформатике, здравоохранению, автономному вождению и т. Д.

Кроме того, мы можем визуализировать значение псевдо-меток - модель может работать лучше, чем человеческая маркировка:

Но он может иногда терпеть неудачу, потому что модель учителя даже не проходила обучение в этих классах:

Если хотите узнать больше: прочтите статью здесь!

Спасибо за прочтение! Я Диксон, 18-летний энтузиаст машинного обучения, который рад использовать его, чтобы повлиять на миллиарды людей 🌎

Если вы хотите присоединиться к моему путешествию, вы можете подписаться на мой ежемесячный информационный бюллетень, проверить мой веб-сайт и подключиться к LinkedIn или Twitter 😃