В этом посте описывается наша недавняя работа по адаптации домена без учителя для семантической сегментации, представленная на CVPR 2019. ADVENT - это гибкий метод преодоления разрыва между двумя разными доменами за счет минимизации энтропии. Наша работа основана на простом наблюдении: модели, обученные только в исходной области, как правило, дают чрезмерно уверенные, т. Е. С низкой энтропией, предсказания для изображений, подобных источнику, и недостаточно уверенные, т. Е. С высокой энтропией, предсказания, предсказания, подобные целевым. . Следовательно, минимизируя энтропию в целевом домене, мы делаем распределения признаков из двух доменов более похожими. Мы показываем, что наш подход обеспечивает конкурентоспособные характеристики в стандартных тестах семантической сегментации и что его можно успешно распространить на другие задачи, такие как обнаружение объектов.

Визуальное восприятие - это замечательная способность, которую водители-люди используют для понимания своего окружения и поддержки множества микро-решений, необходимых в дорожном движении. На протяжении многих лет исследователи работали над имитацией этой способности человека с помощью компьютерных алгоритмов. Эта область исследований, известная как компьютерное зрение, добилась впечатляющих успехов и получила широкое распространение. Большинство современных систем компьютерного зрения полагаются на глубокие нейронные сети (DNN), которые являются мощными и широко используемыми инструментами, способными учиться на больших объемах данных и делать точные прогнозы. При автономном вождении визуальное восприятие на основе DNN также лежит в основе сложных архитектур интеллектуальных автомобилей и поддерживает последующие решения транспортного средства, например, рулевое управление, торможение, сигнализацию и т. Д.

Разнообразие и сложность ситуаций, встречающихся в реальном вождении, огромна. В отличие от людей, которые могут легко экстраполировать предыдущий опыт, чтобы адаптироваться к новым средам и условиям, возможности DNN, выходящие за рамки типов условий и сцен, наблюдаемых во время обучения, ограничены. Например, модели, обученной на данных из солнечной страны, будет сложно обеспечить такую ​​же производительность на улицах со смешанными погодными условиями в другой стране (с другой городской архитектурой, мебелью, растительностью, типами автомобилей, внешним видом и одеждой пешеходов). . Аналогичным образом ожидается, что модель, обученная на конкретном типе камеры, увидит падение производительности с изображениями, поступающими с камеры с другими характеристиками. Это различие между средами, которое приводит к падению производительности, называется пробелом в домене.

Мостовые домены

Мы можем прибегнуть к двум вариантам для сокращения разрыва в предметной области: (i) аннотировать больше данных; (ii) использовать опыт, полученный в исходной среде, и перенести его в новую среду. Было показано, что более аннотированные данные всегда улучшают производительность DNN (Sun et al.). Однако процесс маркировки сопряжен со значительным финансовым и временным бременем. Время, необходимое для высококачественной аннотации, такой как аннотации из популярного набора данных Cityscapes, составляет ∼90 минут на изображение (Cordts et al.). Количество изображений, необходимых для обучения высокопроизводительных DNN, обычно исчисляется сотнями тысяч. На сбор разнообразных данных по сезонам и погодным условиям уходит еще больше времени. В таком случае имеет смысл поискать решение в другом месте, и второй вариант теперь кажется более привлекательным, хотя его достижение остается технически сложной задачей. Фактически это область исследования адаптации домена (DA), которая решает проблему отсутствия доменов путем передачи знаний из исходного домена (с полными аннотациями) в целевой домен (с меньшим количеством аннотаций, если таковые имеются), стремясь достичь хороших показателей на целевых образцах. DA неизменно вызывает интерес со стороны разных сообществ на протяжении многих лет (Csurka et al.)

Здесь мы работаем над неконтролируемым DA (UDA), который представляет собой более сложную задачу, когда у нас есть доступ к помеченным исходным образцам и только немаркированным целевым образцам. В качестве источника мы используем данные, созданные симулятором или движком видеоигры, а в качестве цели мы рассматриваем реальные данные с автомобильных камер. На Рисунке 1 мы проиллюстрировали сложность этой задачи и влияние нашей методики UDA, ADVENT.

Основные подходы к UDA включают минимизацию расхождений между исходными и целевыми распределениями функций, обычно достигаемую с помощью состязательного обучения (Ганин и Лемпицкий, Ценг и др.), самообучения с псевдо-метками ( Zou et al. ) и генеративные подходы ( Hoffman et al. , Wu et al. ).

Минимизация энтропии оказалась полезной для полууправляемого обучения (Grandvalet and Bengio), кластеризации (Jain et al.) и, в последнее время, для адаптации предметной области. для классификации (Long et al.). Мы решили изучить обучение UDA на основе энтропии, чтобы получить конкурентоспособные результаты при семантической сегментации.

Подход

Мы представляем два предлагаемых нами подхода к минимизации энтропии с использованием (i) неконтролируемой потери энтропии и (ii) состязательного обучения. Чтобы построить наши модели, мы начнем с существующих структур семантической сегментации и добавим дополнительную ветвь сети, используемую для адаптации предметной области. Рисунок 2 иллюстрирует наши архитектуры.

Прямая минимизация энтропии

В исходной области мы обучаем нашу модель, обозначенную как F, как обычно, используя контролируемые потери. Для целевого домена у нас нет аннотаций, и мы больше не можем использовать потерю сегментации для обучения F. Мы замечаем, что модели, обученные только в исходной области, имеют тенденцию давать чрезмерно уверенные прогнозы на изображениях, подобных источнику, и неуверенные прогнозы на изображениях, подобных целевому. На основании этого наблюдения мы предлагаем сигнал наблюдения, который мог бы использовать визуальную информацию из целевых образцов, несмотря на отсутствие аннотаций. Цель состоит в том, чтобы ограничить F для получения высоконадежных прогнозов по целевым выборкам, как и по исходным выборкам. Для этого мы вводим потерю энтропии ℒₑₙₜ, чтобы напрямую максимизировать достоверность прогнозов в целевой области. Здесь мы рассматриваем энтропию Шеннона (Шеннон). Во время обучения мы совместно оптимизируем контролируемую потерю сегментации ℒₛₑ на исходных выборках и неконтролируемую потерю энтропии ℒₑₙₜ на целевых выборках.

Минимизация энтропии за счет адверариального обучения

Ограничение потери энтропии связано с отсутствием структурных зависимостей между локальной семантикой. Это вызвано агрегацией энтропий пиксельного предсказания путем суммирования. Мы решаем эту проблему с помощью единой структуры обучения противников, которая косвенно минимизирует энтропию целевых данных, поощряя их стать похожими на исходные. Это позволяет использовать структурную согласованность между доменами. С этой целью мы формулируем задачу UDA как минимизацию расстояния распределения между источником и целью в пространстве взвешенной самоинформации. Поскольку обученная модель дает естественные предсказания с низкой энтропией на изображениях, подобных источнику, путем согласования взвешенных распределений самоинформации целевого и исходного доменов мы достигаем такого же поведения на данных, подобных целевому.

Мы выполняем состязательную адаптацию на взвешенных картах самоинформации, используя полностью сверточную дискриминаторную сеть D. Дискриминатор выдает выходные данные классификации домена, т.е., метку класса 1 (соответственно 0) для исходного (или целевого) домена. Мы обучаем D различать выходные данные, поступающие от исходного и целевого изображений, и в то же время обучаем сеть сегментации, чтобы обмануть дискриминатор.

Эксперименты

Мы оцениваем наши подходы на сложных настройках адаптации домена без учителя синтетический-2-реальный. Модели обучаются на полностью аннотированных синтетических данных и проверяются на реальных данных. В таких настройках модели имеют доступ к некоторым немаркированным реальным изображениям во время обучения.

Семантическая сегментация

Для обучения наших моделей мы используем либо GTA5 (Richter et al.), либо SYNTHIA (Ros et al.) в качестве исходных синтетических данных вместе с обучающими разделение набора данных Cityscapes (Cordts et al.) в качестве данных целевого домена.

В Таблице 1 мы сообщаем наши результаты по семантической сегментации моделей, обученных в GTA5 → Cityscapes и в SYNTHIA → Cityscapes. Мы сравниваем здесь только с наиболее эффективным методом Adapt-SegMap (Tsai et al.), в то время как дополнительные исходные данные и связанные методы рассматриваются в документе.

Наш первый подход прямой минимизации энтропии (MinEnt) обеспечивает производительность, сопоставимую с современными базовыми линиями. Небольшие накладные расходы, связанные с потерей энтропии, сокращают время обучения для модели MinEnt, при этом его легче обучать по сравнению с состязательными сетями. Наш второй подход с использованием состязательного обучения на взвешенном самоинформационном пространстве, обозначенный как AdvEnt, показывает постоянное улучшение по сравнению с исходными показателями. В целом AdvEnt работает лучше, чем MinEnt, что подтверждает важность структурной адаптации. Эти два подхода дополняют друг друга, поскольку их сочетание еще больше повышает производительность.

На рисунке 3 мы проиллюстрировали несколько качественных результатов наших моделей. Без адаптации предметной области модель, обученная только контролю источника, дает зашумленные прогнозы сегментации, а также активацию с высокой энтропией, за некоторыми исключениями для некоторых классов, таких как «building» и «car» . Однако есть много достоверных предсказаний (низкая энтропия), которые полностью ошибочны. С другой стороны, нашим моделям удается давать правильные прогнозы с высокой степенью уверенности.

UDA для обнаружения объекта

Предлагаемые подходы на основе энтропии не ограничиваются семантической сегментацией и могут применяться к UDA для других задач распознавания, например обнаружения объектов. Мы проводили эксперименты в установке обнаружения объектов UDA Cityscapes → Cityscapes-Foggy, аналогичной той, что была в (Chen et al.). Мы приводим количественные результаты в Таблице 2, а качественные - в Рисунке 3. Несмотря на неблагоприятные факторы, наше улучшение по сравнению с исходным уровнем (+ 11,5% MAP с использованием AdvEnt) больше, чем указано в (Chen et al.) (+ 8,8%). Дополнительные эксперименты и детали реализации можно найти в статье. Эти обнадеживающие предварительные результаты предполагают возможность применения энтропийного подхода к UDA для обнаружения.

Заключение

В этой работе мы предлагаем два подхода для неконтролируемой адаптации предметной области, позволяющей достичь самых современных результатов на стандартных тестах синтетический-2-реальный. Интересно, что метод может быть легко расширен до UDA для обнаружения объектов с многообещающими предварительными результатами.

Ознакомьтесь с нашей статьей, чтобы узнать больше об интуиции, экспериментах и ​​деталях реализации AdvEnt, а также опробуйте наш код.

Valeo использует глубокие нейронные сети и машинное обучение в целом во многих областях, включая датчики следующего поколения, которые будут устанавливаться на автономных автомобилях (например, камеры, радары, лидары), а также во многих других функциях автомобилей завтра. Если вы заинтересованы в исследовании более безопасных транспортных средств, рассмотрите возможность подачи заявки на участие в одном из наших вакансий на сайте valeo.ai в Париже или в Праге.