Советы, рекомендации и предупреждения при создании модели машинного обучения для обнаружения зданий с использованием эталонных данных с открытым исходным кодом.

Автор Сара Вербич. Работу исполнилиСара Вербич, Дэвис Перессутти, Нейц Весел, Матей Батич, Жига Лукшич, Ян Гершак, Матик ЛюбейиНика Оман Кадунц.

Мы хотели создать большой обучающий набор данных для автоматического обнаружения зданий в Африке, поэтому для этой цели мы рассмотрели наборы данных с открытым исходным кодом. Созданные компьютером наборы данных недостаточно точны, чтобы их можно было использовать в качестве справочных данных для обучения, и они сильно зависят от спутниковых изображений, на основе которых они были получены. Ручная маркировка нужных целевых спутниковых изображений остается наиболее точным вариантом создания наборов обучающих данных, готовых к машинному обучению, хотя это очень трудоемко и дорого.

Население мира и поселения продолжают быстро расти, и этот переход особенно заметен в развивающихся странах. Определение местоположения и контуров зданий предоставляет данные для различных практических и научных целей, таких как картирование населения, городское управление и науки об окружающей среде. Эти данные особенно ценны в развивающихся регионах, где альтернативные источники данных, особенно от местных органов власти, могут быть недоступны.

Возможны различные методы оценки местоположения и протяженности зданий. Несмотря на высокую точность, ручная обработка аэро/спутникового снимка не поддается масштабированию — требует много времени и труда. Машинное обучение (ML), компьютерное зрение и дистанционное зондирование прошли долгий путь в области автоматического и надежного определения границ зданий, отчасти благодаря растущей доступности изображений с очень высоким разрешением (с пространственным разрешением менее 1 м). Но изображения из открытых источников с достаточным разрешением, которое обычно составляет 50 см, обычно доступны только для небольшого числа мест по всему миру. Это представляет собой проблему, поскольку крайне важно обеспечить географическое разнообразие набора обучающих данных и включить в него различные сельские и городские районы с различными стилями зданий. Однако даже методы машинного обучения в сочетании с изображениями очень высокого разрешения, такими как изображения, предоставленные Airbus Pleiades и Maxar WorldView, недостаточны для получения точных оценок площади зданий. Это связано с ограничениями входных изображений, в основном из-за проблем, возникающих при получении оптических спутниковых изображений, как показано на рисунке 1. Кроме того, при выборе поставщиков спутниковых изображений необходимо учитывать различия в спектральном, временном и пространственном разрешении. выбор подходящего целевого изображения.

С другой стороны, мы должны помнить, что ссылочные метки, используемые в ML, могут содержать ошибки. Кроме того, мы должны признать, что идентификация зданий остается сложной задачей во многих сценариях, учитывая:

  • геологические и растительные особенности, которые можно спутать с застроенными сооружениями;
  • области, характеризующиеся небольшими зданиями, ширина которых при таком разрешении может составлять всего несколько пикселей;
  • здания, построенные из натуральных материалов, которые сливаются с окружающими сельскими или пустынными районами;
  • группы зданий, которые расположены очень близко друг к другу, могут быть трудно идентифицированы.

Такие сценарии распространены в Африке, на долю которой приходится примерно 20% общей площади суши Земли и представлен широкий спектр типов местности и зданий. Нехватка справочных данных в Африке делает достоверность контуров зданий еще более важной.

Далее мы сосредоточимся на обзоре нескольких открытых источников данных и меток для Африки, а именно: Building Footprints от Microsoft (MBF [1]), Open Buildings от Google (GOB [2]) и Replicable AI for Microplanning (RAMP [ 3]) наборы данных. Мы рассматриваем такие наборы данных с намерением использовать их в качестве справочных меток для нашего иерархического детектора (HIECTOR) [4]. Поскольку мы заинтересованы в запуске HIECTOR на всем африканском континенте, мы будем рассматривать различные регионы и районы. Если вас интересует тема построения сегментации, мы рекомендуем отличный обзор, представленный в серии постов в блоге Azavea [5]. Мы также знаем и рассмотрели другие наборы данных с открытым исходным кодом, такие как наборы данных испытаний SpaceNet [6] и контуры ручного строительства, доступные на Radiant Earth MLHub [7]. Однако эти наборы данных имеют ограниченный пространственный охват, что ограничивает их использование в качестве обучающих наборов данных для прогнозирования зданий на всем континенте. Дополнительным ресурсом меток с открытым исходным кодом, о котором стоит упомянуть, является раздел «Наборы данных» репозитория Satellite Imagery Deep Learning [8].

Как и многое другое, проанализированные источники данных имеют свои плюсы и минусы. Их главное преимущество заключается в том, что они доступны и часто могут использоваться по разрешающим лицензиям, подходящим как для академических, так и для коммерческих приложений. Как правило, населенные пункты, как правило, обнаруживаются, но точность построения полигонов контуров значительно различается в зависимости от набора данных и местоположения. Подробнее об этом позже! Если мы сосредоточимся на первом, набор данных MBF не покрывает всю Африку, а это означает, что в некоторых районах отсутствуют следы зданий. Они не обрабатывали изображения, если тайлы были датированы до 2014 года или имели низкую вероятность обнаружения [8]. Недостатком наборов данных MBF и GOB является то, что даты получения изображений неизвестны. Прогнозы GOB были созданы в августе 2022 г. [2], но самому последнему снимку для некоторых локаций на тот момент было несколько лет или он вообще отсутствовал, а в наборе данных отсутствует информация о годе получения использованных спутниковых снимков. . Набор данных MBF содержит атрибут даты получения изображения для каждого контура здания, если они могут определить возраст использованных изображений. Однако в интересующих нас местах такой информации не было. Все, что известно, это то, что используемые изображения взяты из Bing Maps, включая изображения Maxar и Airbus, сделанные в период с 2014 по 2022 год [9]. Отсутствие этой информации значительно усложняет работу с данными, поскольку невозможно интерпретировать данные на соответствующих базовых изображениях. То же самое необходимо учитывать при оценке качества маркировки контуров зданий, поскольку наборы данных не обязательно отражают состояние (последних) лежащих в основе спутниковых снимков. В нашем случае это относится к наборам данных MBF, GOB и HIECTOR.

Чтобы увидеть, как полигоны контуров зданий различаются между наборами данных и типами интересующих мест, мы обратим внимание на 4 интересных места в разных регионах Африки. Они были выбраны для представления разных типов поселений — сельских, городских и многоэтажных. В качестве дополнительной точки сравнения мы также включим метки, обнаруженные с помощью HIECTOR, которые на данный момент доступны только для Дакара, Сенегал.

Интермеццо: площадь здания или крыша

Общее определение контура здания — это многоугольник или набор многоугольников, представляющих конкретное здание в физическом мире, обеспечивающих ориентированное на землю представление местоположения, формы, размеров и площади здания [10]. Получение всей этой информации из спутниковых снимков с высоты может оказаться невозможным, поэтому часто алгоритмы обеспечивают приблизительную оценку площади в зависимости от условий получения изображения и формы здания. Например, для некоторых высотных зданий, показанных здесь, тени и ориентация здания перекрывают фактическую площадь здания. В других случаях, например, для рядных домов или блоков, разделение контуров зданий не соответствует физическим видимым признакам. По этой причине некоторые автоматизированные алгоритмы более успешны в обнаружении и очерчивании крыш зданий, а не фактической площади.

Сравнение

Для объективного сравнения мы визуализируем наборы данных на соответствующих спутниковых снимках, используемых для определения контуров зданий. Сравнение различных спутниковых изображений затруднено из-за различий в условиях получения и обработки изображений. Однако, несмотря на проблемы, предполагаемые контуры зданий должны обеспечивать надежную оценку фактического положения здания независимо от изображения, из которого оно было получено.

Ниже вы найдете примеры изображений, взятых из более крупных областей интереса (AOI), которые мы исследовали. Красные ограничивающие прямоугольники вокруг зданий представляют собой прогнозы набора данных Microsoft Building Footprints с картами Bing в качестве базовых спутниковых изображений. Зеленые ограничивающие прямоугольники представляют набор данных Google Open Buildings, а его базовые изображения — спутниковые снимки Google Earth. Прогнозы RAMP отмечены желтыми ограничивающими рамками, где результаты обнаружения были получены с использованием изображений Pleiades с высоким разрешением. В отличие от наборов данных MBF и GOB, проект RAMP предоставляет модель и отличные инструкции для получения полигонов контура для любой области интереса. Кроме того, интересующее место в Дакаре включает в себя обнаружения с HIECTOR, которые отмечены синими ограничивающими прямоугольниками и также были получены с использованием изображений Pleiades.

Серекунда — Гамбия

Первое, что бросается в глаза, это то, что контуры зданий, полученные с помощью модели прогнозирования RAMP, имеют отчетливо аморфную форму, лишенную четко определенных краев, что, следовательно, неточно отражает наземную правду. Еще одним ограничением RAMP является неполное извлечение больших зданий, а также невозможность полностью охватить видимую структуру, изображенную на спутниковых снимках, видимую на некоторых контурах зданий. Это, конечно, ограничение модели, а не изображений, и, вероятно, из-за отсутствия обобщения на новые области. Одна проблема, наблюдаемая для GOB во всех местах, связана с прогнозируемыми частичными зданиями, вероятно, из-за сшивания спутниковых фрагментов из разных снимков.

Набор данных MBF имеет тенденцию быть менее точным при обнаружении зданий большого размера, поскольку эти структуры часто объединяются в один блок полигонов, что приводит к потере деталей. Этот фактор следует учитывать особенно в густонаселенных районах, где распространены пристроенные строения. Модель прогнозирования RAMP подвержена аналогичной проблеме, но со зданиями меньшего размера.

Каир — Египет

Области с высокими зданиями обычно демонстрируют более высокую точность из-за их упорядоченного дизайна. Такой сценарий наблюдается в районах Каира. Однако, несмотря на однородность структур, некоторые контуры зданий в наборе данных GOB фрагментированы. Это можно объяснить наличием небольших построек, расположенных на крышах высотных зданий. Такие конструкции имеют различные характеристики отражения и разную высоту крыши, что позволяет идентифицировать их как отдельные здания. Напротив, MBF объединяет высотные здания в одну ограничивающую рамку, несмотря на их четкое разделение. Набор данных GOB также сталкивается с проблемой точного представления высотных зданий, в этом конкретном месте их ограничивающие рамки демонстрируют различия в их очертаниях. В частности, одни ограничивающие рамки захватывают контур крыши здания, а другие очерчивают контур конструкции на земле.

Гатумба — Бужумбура

Быстро меняющиеся пейзажи — не редкость в Африке, поэтому наборы данных и спутниковые снимки не всегда отражают текущее состояние интересующей области. Это подчеркивается наблюдаемыми различиями в обнаружении и временным разнообразием базовых спутниковых изображений в следующем сравнении. Как упоминалось ранее, неясно, к каким конкретным датам относятся MBF и GOB, что может создать трудности при использовании этих двух наборов данных. Заметной проблемой является то, что модель не может обнаружить множество объектов, включая как более мелкие объекты на севере, так и более крупные объекты на юге от интересующего места. Это ставит под сомнение точность и надежность модели.

Моддерспруит — Южная Африка

Ограничения устаревших наборов данных и неточностей в моделях обнаружения зданий очевидны в этом конкретном интересующем месте. Набор данных MBF включает только здания, которые существовали до 2017 года, в то время как модель прогнозирования RAMP показывает значительные неточности в обнаружении зданий в этом месте, при этом большое количество зданий остается необнаруженным и несколько ложных обнаружений больших размеров.

При сравнении количества обнаружений в наборах данных становится очевидным, что набор данных GOB отличается большим количеством обнаружений меньшего размера, некоторые из которых на самом деле могут быть не зданиями, а камнями или растительностью. Обнаружения в наборе данных уже отфильтрованы и включают только те, у которых показатель достоверности равен 0,6 или выше. Google рекомендует фильтровать обнаружения на основе оценок достоверности для достижения желаемого уровня точности в зависимости от приложения. Качество набора данных зависит от местоположения, и Google предоставляет CSV-файл с рекомендуемыми пороговыми значениями для получения рекомендуемого уровня точности для каждой плитки загрузки.

Дакар — Сенегал

В Дакаре мы выбрали интересный городской район, где здания плотно расположены в непосредственной близости друг от друга. При сравнении наборов данных мы заметили, что обнаружение HIECTOR было наиболее полным. Тем не менее, есть еще много возможностей для улучшения, так как некоторые ограничивающие прямоугольники перекрываются и есть некоторые ложные обнаружения, такие как парковочные места и случайные участки дорог. Модель прогнозирования RAMP в значительной степени не увенчалась успехом в извлечении контуров отдельных зданий. Большинство обнаруженных следов содержат несколько зданий, что создает серьезную проблему для точного анализа и оценки набора данных. Набор данных MBF также представляет собой сравнимую проблему, хотя и с меньшим количеством таких случаев. Кроме того, его главный недостаток в том, что не было обнаружено множество зданий. Анализ ГОБ оказался сложной задачей из-за другого угла обзора основных спутниковых изображений. Тем не менее, высокая частота обнаружений меньшего размера остается постоянной проблемой.

Обсуждение

Вышеупомянутый обзор был проведен с целью проверки наборов данных о габаритах зданий с открытым исходным кодом для их использования в качестве обучающего набора данных в большой области интереса, то есть в Африке, для нашей собственной модели обнаружения зданий HIECTOR. Представленная оценка качества может не применяться в других случаях использования, например, для приблизительной оценки зданий в данной области. Однако для нашего случая использования мы считаем необходимым предоставить следующие советы и предупреждения:

  • Заранее продумайте, какие спутниковые изображения будут использоваться в качестве базового слоя, и помните о различиях, вызванных различными условиями получения, особенно если вы планируете использовать несколько источников изображений.
  • Размеченные вручную или проверенные контуры зданий обеспечивают наиболее точную оценку контуров зданий, хотя их пространственный охват очень ограничен. Обязательно проверьте наборы данных с открытым исходным кодом на наличие данных, помеченных вручную.
  • Если вы нацелены на большие площади, а вручную помеченные контуры не подходят, рассмотрите наборы данных, сгенерированные машиной. Однако точность и охват созданных машинным способом контуров зданий сильно различаются в зависимости от региона, поэтому обязательно оцените их точность, используя выбранные целевые изображения.
  • Хотя наборы данных, сгенерированные машиной, могут быть недостаточно точными для использования в качестве обучающих меток, они могут стать хорошей отправной точкой для ускорения ручной маркировки и проверки. Это, опять же, зависит от региона и сложности изображаемых зданий и ландшафта.

Заключение

Точные и актуальные данные о площади зданий имеют решающее значение для различных практических и научных целей. Новые технологии позволили автоматически очертить здания. Тем не менее, ограничения входных изображений и эталонных меток по-прежнему создают проблемы, особенно в развивающихся регионах, где точных данных может быть недостаточно. Чтобы решить эту проблему, мы изучили различные наборы данных с открытым исходным кодом, доступные для Африки. Мы указали на некоторые недостатки и показали, что качество наборов данных варьируется от места к месту, и считаем, что очень важно оценить пригодность и ограничения этих наборов данных для конкретных регионов и областей применения. Необходимы дальнейшие усилия для повышения точности и охвата таких наборов данных, но, тем не менее, они обеспечивают многообещающий путь к более точным и полным данным о площади зданий, особенно для регионов, где альтернативные источники данных могут быть недоступны.

Ссылки

[1] https://www.microsoft.com/en-us/maps/building-footprints

[2] https://sites.research.google/open-buildings

[3] https://ramml.global/

[4] https://github.com/sentinel-hub/hiector

[5] https://www.azavea.com/blog/2022/10/26/automated-building-footprint-extraction-open-datasets/

[6] https://spacenet.ai/datasets/

[7] https://mlhub.earth/datasets?tags=building+footprints

[8] https://github.com/satellite-image-deep-learning/datasets

[9] https://github.com/microsoft/GlobalMLBuildingFootprints

[10] https://www.safegraph.com/blog/building-footprint

Проект получил финансирование от исследовательской и инновационной программы Горизонт 2020 Европейского Союза в рамках Соглашения о гранте 101004112, Проект Global Earth Monitor.