Синтез надежности: требования к размеру набора данных и географическая аналитика

Предисловие. Этот блог впервые появился в блоге IQT в рамках продолжающегося исследовательского проекта IQT Labs, изучающего синтетические данные и спутниковые снимки. Воспроизведено здесь с разрешения.

1. Введение

Набор данных спутниковых изображений RarePlanes достаточно богат, чтобы обеспечить обширные исследования машинного обучения и обнаружения объектов, особенно в сочетании с сопутствующими синтетическими данными. В предыдущих сообщениях (1, 2) мы обсуждали набор данных и начальные агрегированные результаты для проекта IQT Labs Synthesizing Robustness, целью которого является определение того, эффективны ли стратегии доменной адаптации для улучшения обнаружения и идентификации редкий самолет со спутниковой точки зрения. В этом посте мы обсудим подробные результаты для моделей обнаружения объектов, сосредоточив внимание на географических различиях и отдельных классах объектов. Мы определяем, насколько сложнее локализовать редкие объекты, хотя это сильно зависит от конкретных характеристик самолета.

2. Сводка по совокупным оценкам

В рамках проекта Synthesizing Robustness мы фокусируемся на 14 классах самолетов (плюс общая категория Другие) как на реальных спутниковых снимках, так и на синтетических данных. В эти 14 классов входят 12 российских и два китайских производителя. Первоначально существует 99 классов самолетов (от North American T-28 Trojan до Douglas C-47 Skytrain и Chengdu J-20), поэтому класс самолетов Другие сводит на нет 85 классов самолетов. См. Рисунок 1 для выбранных классов самолетов и наш блог Результаты, часть 1 для получения полной информации о наборе данных. Напомним, что мы провели серию экспериментов в предыдущем блоге и в конечном итоге обнаружили, что сочетание целенаправленного увеличения реальных данных с адаптированными к предметной области синтетическими данными (Эксперимент G) обеспечивает наилучшую производительность (см. Таблицу 1).

3. Географическая статистика: видимые и невидимые регионы

В этом разделе мы исследуем различия в производительности при поиске и идентификации самолетов в видимых и невидимых местах. Все тестовые изображения отличаются от тренировочного набора, хотя некоторые тестовые изображения сделаны в том же аэропорту, что и тренировочные изображения (хотя и в разные дни).

В нашем наборе данных 164 тестовых набора и 75 уникальных тестовых местоположений. Каждое место имеет несколько наблюдений и 30 местоположений (всего 47 сборов) в том же месте, что и тренировочные изображения (хотя и в другие дни, чем тренировочный сбор). Таким образом, 45 местоположений являются уникальными для тестового набора, включая 117 коллекций. В Таблице 2 мы показываем эффективность лучшей модели (Эксперимент G: Real + Targeted Augment + DA Synthetic) в разбивке по географическому признаку.

Таблица 2 показывает, что предсказание в невидимых местах намного хуже, чем предсказание в местах, присутствующих в наборе обучающих данных. Хотя этот результат не может быть неожиданным в качественном отношении, количественная оценка величины улучшения (43% или 3,5σ) важна для определения устойчивости модели к различным сценариям развертывания.

На рисунке 2 мы показываем дельту производительности для каждого класса самолетов между новыми и уже известными местоположениями. Для большинства классов самолетов производительность улучшается лишь незначительно, если местоположение уже было замечено, хотя для некоторых типов самолетов (например, Xian H-6) она значительно улучшается.

4. Производительность по размеру обучающего набора данных

Большая часть обоснования для проведения первоначального проекта RarePlanes и последующего проекта Synthesizing Robustness заключалась в изучении того, как производительность обнаружения объектов зависит от размера набора обучающих данных. Результаты первоначального исследования RarePlanes доступны здесь, хотя проект Synthesizing Robustness фильтрует данные по-другому и даст другие результаты.

На рисунках 3 и 4 показаны характеристики обнаружения для каждого класса самолетов.

Обратите внимание, что производительность для экспериментов D и G имеет тенденцию к снижению с уменьшением размера набора обучающих данных. Также обратите внимание, что (довольно плохая) линия линейного соответствия с зелеными точками является более крутой и более низкой для эксперимента D, а это означает, что добавление адаптированных к предметной области синтетических данных в эксперименте G обеспечивает большую ценность для редких объектов, чем для обычных объектов. На графиках есть несколько выбросов (например, Як-130, Су-27), которые мы обсудим в следующем разделе.

На рис. 5 показана разница в производительности между экспериментом D (только реальный) и экспериментом G (реальный + синтетический DA). Мы видим, что для самых сложных классов (например, Як-130, Су-27, МиГ-29) синтетические данные дают огромное улучшение. Например, баллы за обнаружение МиГ-29 увеличиваются более чем на 20× при использовании синтетических данных, адаптированных к предметной области.

5. Матрицы путаницы

Теперь мы углубимся в специфику ошибок классификации. На рисунках 5 и 6 мы вычисляем матрицу путаницы между классами. Хотя матрицы путаницы часто используются в простых задачах классификации, они менее распространены в сценариях обнаружения объектов из-за наличия ошибок, не связанных с классификацией (т. Е. Ложноотрицательных и положительных результатов). Соответственно, мы вычисляем и отображаем ложноотрицательные и положительные результаты на рисунках 6 и 7.

На рисунках 6 и 7 также показано, почему оценки некоторых классов ниже, чем ожидалось. Например, обнаружение Су-27 ниже, чем можно было бы ожидать (учитывая тенденции на рис. 5), но рис. 6 демонстрирует, что основной причиной низкого показателя обнаружения является то, что Су-27 часто путают с МиГ-31 — еще одна причина. Российский истребитель. Обратите внимание, что для большинства моделей самолетов (особенно самых редких) диагональ в эксперименте G больше, чем в эксперименте D. Обратите внимание, что для большинства моделей самолетов (особенно самых редких) диагональ в эксперименте G (рис. 7) больше, чем в эксперименте D. для эксперимента D (рис. 6). Кроме того, в эксперименте G меньше ложноотрицательных результатов и ошибочных классификаций в качестве «других». Это помогает объяснить повышение производительности синтетических данных, адаптированных к предметной области, используемых в эксперименте G: улучшаются как общие обнаружения (меньше ложноотрицательных результатов), так и производители самолетов идентифицируются с более высоким достоверность (меньше ошибочных классификаций).

6. Выводы

В этом посте мы подробно рассмотрели конкретные успехи и неудачи модели обнаружения YOLTv4, используемой в проекте Synthesizing Robustness. Мы показали, что прогнозы для ранее замеченных аэродромов значительно выше, чем прогнозы для новых, невидимых аэродромов. Мы также обнаружили, что адаптированные к предметной области синтетические данные обеспечивают наибольшую ценность для самых редких классов (см. рис. 5), что согласуется с первоначальными выводами проекта RarePlanes.

В частности, проект RarePlanes обнаружил большую полезность синтетических данных для самых редких классов объектов. Мы обнаружили, что для этого исследования доменная адаптация синтетических данных дает еще больше преимуществ для редких категорий. Несмотря на то, что существует общая тенденция к более низкой производительности при меньшем количестве обучающих примеров, в этой тенденции есть существенные отклонения. Проверка матрицы путаницы для классификации самолетов позволяет выявить степень смешения похожих самолетов (например, Су-27 и МиГ-31), а также выявить недостатки модели даже с синтетическими данными, адаптированными к предметной области.

Наше исследование показывает, что при наличии синтетических данных адаптация синтетических данных к предметной области и их объединение с целевым дополнением реальных данных является относительно простым способом улучшить как производительность модели, так и полезность синтетических данных. Синтетические данные, безусловно, не являются панацеей, и некоторые классы объектов могут практически не улучшиться с помощью синтетических данных. Таким образом, после многочисленных экспериментов мы можем сделать вывод, что извлечение полезности из синтетических данных часто требует значительных усилий и творческого подхода.

Этот пост завершает проект Synthesizing Robustness. Предлагаем заинтересованным читателям ознакомиться с оригинальным проектом RarePlanes, ознакомиться с предыдущими блогами этой серии (1, 2) или ознакомиться с полным отчетом.

* Спасибо Нику Вейру и Джейку Шермейеру за их усилия по эксперименту и разработке набора данных. Спасибо Фелипе Мехиа за помощь в обучении адаптации домена.