Эта статья является продолжением истории из двух частей. Вы можете найти первый раздел здесь.

В предыдущей статье мы:

  • Представлено, насколько важны леса как часть решения по борьбе с изменением климата.
  • Введены открытые источники данных, которые мы можем использовать для мониторинга обезлесения.
  • Объяснил, как можно обучить классификатор автоматически обнаруживать изменения в доступных данных.

В данной статье обученный классификатор используется для обнаружения вариаций леса, анализа полученных результатов и обсуждения альтернативных вариантов улучшения реализованного решения.

Доступ к данным оценки

Здесь мы демонстрируем, как мы можем получить доступ к информации о лесах за последние годы для региона Пара в Бразилии. Тем не менее, этот подход работает одинаково для любой части мира, где предоставляются данные программы изображений Норвежская международная инициатива по климату и лесам (NICFI).

Мы можем запросить доступные мозаики с помощью клиента Python Planet следующим образом:

planet mosaics list | jq -r '.mosaics[] | [.name, .first_acquired, .last_acquired] | @tsv'

После выбора конкретной мозаики (например, planet_medres_normalized_analytic_2020–06_2020–08_mosaic) мы можем загрузить данные для конкретной области интереса (ROI), указав ее координаты, как показано ниже:

planet mosaics download planet_medres_normalized_analytic_2020-06_2020-08_mosaic --bbox -53,-4,-52,-3

Полученный продукт представляет собой набор GeoTIFF файлов изображений, содержащих запрашиваемую область интереса, разделенную на плитки размером 4096 на 4096 пикселей. Учитывая расстояние от земли до 4.77m, каждая плитка покрывает площадь 380 квадратных километров.

Классификация

Теперь нам нужно классифицировать загруженные данные. Нейронная сеть Resnet50, которую мы обучили ранее, принимает в качестве входных изображений 224 на 224 пикселей, содержащих три видимые полосы в качестве каналов. Чтобы соответствовать ожидаемому формату, мы:

  • Удалите из входных данных канал ближнего инфракрасного диапазона. Позже мы обсудим, как мы можем использовать информацию о диапазоне NIR в рамках будущей работы.
  • Разделите площадь каждого GeoTIFF файла на плитки ожидаемого размера.

К счастью, библиотека с открытым исходным кодом telluric, разработанная Satellogic, обеспечивает эту функциональность мозаики из коробки. Библиотека также обеспечивает удобное управление географическими многоугольниками, их сохранение и загрузку с помощью файлов geojson. Эта функция позволяет нам эффективно обрабатывать результаты классификации. Для каждой плитки, которая проходит через классификатор, мы генерируем соответствующую форму, имеющую след плитки и метки, выводимые классификатором в качестве свойств. Мы собираем все формы и сохраняем их в geojson файл, который мы можем легко открыть в географической информационной системе (например, QGIS) и изучить, как показано ниже.

Код, реализующий загрузку растров, разделение по тайлам, их классификацию и генерацию выходных геодезонов, вы можете найти здесь.

Подведем итоги: теперь у нас есть изображения интересующего региона, сделанные в разные годы, и соответствующая им классификация земельного покрытия. Единственная недостающая часть для автоматического мониторинга обезлесения - это разработка критериев для маркировки зон, которые были обезлесены между двумя точками времени.

Классификатор идентифицирует каждую плитку, используя до семнадцати категорий. Некоторые могут быть назначены одновременно (например, primary и clear), а другие - противоположны (например, clear и cloudy). Мы можем легко обнаружить обезлесенные плитки, оценив некоторые конкретные метки:

  • primary: сокращение от «первичного тропического леса» или того, что в просторечии известно как девственный лес. Вообще говоря, мы используем метку «первичный» для любой области, которая демонстрирует густой лесной покров.
  • agriculture: одним из основных факторов вырубки лесов в Амазонии является сельское хозяйство. Большие участки земли очищаются от деревьев, чтобы на ранчо выращивать плантации или разводить животных. Классификатор помечает этим тегом участки земли с таким использованием.
  • habitation и road: вторая причина обезлесения - это расширение населенных людьми территорий и инфраструктуры, необходимой для этого увеличения. Мы используем эти две категории для обозначения построек, созданных руками человека. habitation используется для обозначения домов или зданий, в том числе от плотных городских районов до сельских деревень. road используется для обозначения участков земли с тропами, дорогами или шоссе.

Облака - обычное явление при дистанционном зондировании, что делает невозможным использование некоторых захваченных изображений. К счастью, обученный нами классификатор позволяет классифицировать плитки в соответствии с облачным покрытием по четырем категориям: clear, partly cloudy, cloudy и haze. В нашем конкретном случае облака не являются проблемой при работе с данными, предоставленными в программе NICFI. Поставляемые ими изображения представляют собой мозаику, созданную из нескольких снимков за каждый период. Изображения, рассматриваемые для мозаики, были безоблачными. Но, если кто-то хочет работать с данными высокого разрешения из другого источника (например, Maxar или Satellogic), эта классификация может оказаться полезной.

Используя выходные файлы geojson классификации и метки, описанные выше, мы можем автоматически разрабатывать различные стратегии для маркировки обезлесенных регионов между двумя точками времени.

Результаты

Здесь мы не оцениваем классификатор с использованием типичного подхода к сравнительному анализу его точности на ранее невидимых помеченных тестовых данных. Мы сделали это при отправке реализованного классификатора для тестирования с помощью задачи Kaggle. Мы сообщаем его оценку в первой части этого рассказа. К сожалению, мы не можем сравнивать с достоверными данными, используя изображения NICFI, поскольку они не являются данными без ярлыков. Мы можем оценить некоторые результаты визуально, чтобы получить представление о производительности классификатора на данных NICFI.

Мы показываем изменения в интересующем регионе в период с 2016 по 2020 годы. Мы отмечаем как обезлесенные территории, которые изначально не имели меток agriculture и habitation, и имеют какие-либо из этих меток в последних. Код, реализующий классификацию, можно найти здесь.

Обычно при классификации входа на два возможных класса мы получаем как правильные, так и неправильные обнаружения. Они называются истинными срабатываниями и ложными срабатываниями. Первый относится к случаям, когда система помечает территорию как вырубленную, и мы можем визуально подтвердить, что деревья были вырублены в этом регионе. Давайте сначала рассмотрим несколько действительно положительных примеров:

В приведенных выше примерах участки были обезлесены, чтобы освободить место для плантаций или ранчо для разведения животных.

Ложные срабатывания соответствуют случаям, когда классификатор делает неправильное обнаружение, отмечая как обезлесенный участок, где мы можем визуально оценить, что никаких изменений в лесу не произошло. Давайте теперь рассмотрим некоторые ошибочные определения:

Визуально изучив изображения, мы могли попытаться понять, почему каждое из них было неправильно классифицировано:

  • a: Это очень сложный случай. Можно сказать, что в регионе происходит вырубка лесов из-за небольшой части в верхнем левом углу, где вырубались деревья. Но на значительной части площади лес вроде бы не изменился. Облака на первом изображении и тени облаков на втором в этом случае обманули классификатор.
  • b: В этом примере классификатор не присвоил метку habitation первому изображению, а присвоил его второму. Кажется, на береговой линии есть какие-то строения, которые могут объяснить, почему была присвоена эта категория. Эти здания выглядят насыщенными на снимке, сделанном в 2016 году, что, безусловно, привело к тому, что классификатор не обнаружил конструкции. Этот пример содержит дополнительную трудность; он захватил часть реки Амазонки. В случаях, подобных этому, мы могли бы извлечь выгоду из использования метки water, которую также выводит классификатор, для дальнейшего уточнения критериев, которые мы использовали для рассмотрения региона как обезлесенного.
  • c: Бывают случаи, когда облака покрывают большую часть захваченной области. Чтобы это стало проблемой, необязательно, чтобы на обоих снимках были облака. Когда один из двух уже прикрыт, обнаружение обезлесенных регионов становится невозможным. В этом примере изображение, полученное в 2020 году, ясно показывает, что в этом районе нет деревьев и есть ранчо. Но мы не можем считать этот регион обезлесенным, потому что нам не хватает того, как он выглядел в 2016 году. Облаков не ожидается, поскольку предоставленные мозаики были созданы, чтобы их избежать, но это действительно происходит в некоторых тайлах. Классификатор выводит набор меток, относящихся к облачности: clear, cloudy, partly-cloudy и haze. Мы могли бы потенциально использовать их для выявления случаев, подобных этому, и для более надежной маркировки обезлесенных регионов.
  • d: В данном случае мы столкнулись с обычной проблемой дистанционного зондирования: снимок, сделанный в 2016 году, оказался перенасыщенным. Когда это происходит, детали объектов с высокой отражательной способностью теряются. В просторечии это называется выжженными пикселями. В этом примере мы можем увидеть это поведение на белых крышах зданий. Когда детали теряются, классификатор изо всех сил пытается идентифицировать лежащие в основе структуры. Из-за этого классификатор пропустил метку habitation в первом захвате. Поэтому он неправильно считал регион обезлесенным.

Будущая работа

Улучшения классификатора

При реализации классификатора можно попробовать несколько вариантов. С одной стороны, мы могли попробовать разные сетевые архитектуры. Мы использовали архитектуру сверточной сети ResNet50 (ConvNet). Но несколько других сетевых архитектур могут обеспечить лучшую производительность или аналогичную, но выигрывают от уменьшения количества параметров и операций. Например, Inception, DenseNets или более новая EfficientNet, предложенная Google в 2019 году. Есть сообщение на форуме Kaggle Challenge, в котором рассказывается об экспериментах с различными типами ConvNets. Без изменения сетевой архитектуры есть несколько других функций классификатора для просмотра и тестирования альтернатив: определение функции потерь, стратегия эволюции скорости обучения и увеличение данных обучающих данных, среди прочего. Изменение свойств этого классификатора может привести к повышению его эффективности.

Улучшения обучающих данных

Система машинного обучения работает лучше всего, когда она достигает обобщения во время обучения. Ключом к тому, чтобы это произошло, является то, что обучающий набор данных содержит примеры, напоминающие функции данных, которые классификатор позже увидит в производственной среде. Мы не полностью выполняем это в нашем конкретном сценарии по двум основным причинам.

  1. Разрешение. Разрешение изображения набора обучающих данных не совпадает с разрешением данных оценки. В первом случае расстояние от земли до выборки (GSD) составляет 3 м; во втором случае размер пикселя составляет 4,7 м.
    Мы можем частично компенсировать эту разницу в GSD, введя масштабирование как часть увеличения данных во время обучения, чего мы не делали в этом доказательстве концепции. Помимо этого, мы можем извлечь выгоду из прямой подвыборки всех обучающих данных, чтобы получить точное разрешение в качестве набора данных оценки.
  2. Различия в цветах. Компании, занимающиеся созданием спутниковых изображений, обычно предоставляют два типа продуктов: научный и аналитический. Аналитические продукты оптимизированы для визуальной оценки людьми. Они обеспечивают визуальный вид с цветами, которые выглядят естественными и привлекательными для людей, работающих с изображениями. Когда ConvNets используются с данными дистанционного зондирования в некоторых приложениях, например, для обнаружения автомобилей или зданий, это может не иметь значения, поскольку классификатор ищет структуры и формы. В нашем конкретном сценарии это не так. Деревья и другие объекты, которые мы классифицируем, более различимы с точки зрения текстуры, а не формы. Это делает нашу систему очень зависимой от цветового содержания. Мы можем с уверенностью предположить, что изменения в трех каналах RGB одного входа повлияют на присвоенные ему метки. Наборы данных для обучения и оценки, которые мы используем в этой демонстрации, взяты с Planet. Но нет никакой гарантии, что они таким же образом улучшили красную (R), зеленую (G) и синюю (B) полосы на них. Они предоставили сборы данных в разные моменты времени. Возможно, они внесли изменения в код и алгоритмы, используемые для улучшения визуальных продуктов. Это приводит к различиям в цветах наборов данных для обучения и оценки.
    Возможное решение этой проблемы - анализ распределения цветов в обоих наборах данных. Мы могли бы применить преобразования в цветовых полосах изображений на основе статистики, чтобы получить схожие распределения в двух наборах данных. Другое решение - попытаться получить доступ к научным продуктам вместо аналитических. К сожалению, программа NICFI не предоставляет такой продукт.

Оценка

Проверка правильных и неправильных обнаружений - отличный первый подход к пониманию того, как работает классификатор, и к интуитивному пониманию проблемных случаев. Но для его надежного улучшения нам нужна автоматическая оценка его производительности. Для реализации такой проверки, в нашем конкретном случае, нам потребуются метки наземной достоверности для изображений NICFI интересующей области, которые не предоставлены.

В Интернете есть общедоступные источники данных о покрытии деревьев и их исчезновении. Например, информация, отображаемая в инструменте визуализации Global Forest Watch, взята из проекта, осуществляемого Университетом Мэриленда. Они охарактеризовали эволюцию лесов с 2000 по 2019 год. Они обеспечивают классификацию с разрешением тридцать метров на пиксель. Это ожидаемо, потому что это основано на изображениях с этого GSD, полученных с Landsat 7 и 8. Наша классификация основана на изображениях с более высоким разрешением 4,7 метра на пиксель. Тем не менее, данные, предоставленные Мэрилендским университетом, по-прежнему можно использовать как основную истину. Мы классифицируем плитки размером 224x224 пикселей, что при 4,7 мтс / пиксель соответствует области 1052x1052 метра. Эта область будет охватывать 35x35 пикселей источника данных, предоставленных с разрешением 30 мтс / пикс. Возможной стратегией использования этих данных в качестве справки о покрытии деревьев и потере деревьев может быть присвоение наиболее распространенной метки пикселей внутри области 1052x1052 mts и присвоение ее тайлу.

Изучите другие источники данных

Есть и другие источники данных, которые мы в настоящее время не используем, которые могут помочь повысить эффективность классификации.

Один из них - это ближний инфракрасный (NIR) спектральный диапазон. Он фиксирует информацию, недоступную в видимых полосах RGB, которые мы видим невооруженным глазом. Эта информация полезна для оценки изменений в растительности территории. Содержание в полосе NIR обычно комбинируется с красной полосой для получения Нормализованного индекса разницы растительности (NDVI). Вариации этого индекса позволяют измерять изменения живой зеленой растительности.

Диапазон NIR доступен как в обучающих, так и в оценочных наборах данных. Во-первых, они включают полосу NIR в GeoTiff файлах, которые мы можем использовать вместо jpeg превью, как мы упоминали в предыдущей части статьи при описании данных обучения. Прежде чем приступить к использованию диапазона NIR, хороший совет - просмотреть некоторые сообщения, отправленные участниками испытания Kaggle, например: Здесь и здесь. Они сообщили, что не заметили улучшения производительности при использовании файлов GeoTiff вместо их jpeg аналогов.

Еще одним полезным источником данных может быть трехмерная информация о лесном покрове. Мы можем получить его, используя два разных подхода: либо снимая его с помощью устройства LiDAR, либо реконструируя с помощью стереоскопии.

Использование трехмерной информации - это подход, который несколько человек, занимающихся мониторингом лесов, уже отметили как полезный. Например, Pachama отчитывается, используя его как один из источников данных.

Другой тип данных, который оказался полезным для мониторинга лесов, поступает со спутников Радар с синтезированной апертурой (SAR).

Таким образом, существует множество различных типов данных, поступающих со спутников с использованием различных стратегий захвата; это хорошая новость для нас, поскольку они могут дополнять друг друга, отражая различные особенности леса. Изображение ниже представляет собой отличный обзор источников данных, доступных для мониторинга лесов.

Выводы

Эта статья позволяет нам воочию увидеть влияние деятельности человека на леса во времени. Это пример, показывающий огромный объем доступной информации, чтобы понять, как мы воздействуем на экосистемы. Это не единственный; есть много данных, показывающих, как мы нарушаем природные ландшафты. Хорошо известно, как мы разбалансировали источники и поглотители парниковых газов в атмосфере. Существует множество свидетельств того, что изменение климата реально. Последний отчет Межправительственной группы экспертов по изменению климата (МГЭИК) Организации Объединенных Наций (ООН) подтверждает то, что мы уже знали из предыдущих оценочных отчетов.

Несмотря на все это, все еще есть люди, отрицающие изменение климата или нашу ответственность за его возникновение. Мы не должны относиться к этому пессимистично. Это не первый случай, когда данные доказали, как деятельность человека влияет на окружающую среду, и столкнулись с критикой и отрицанием. Использование химических хлорфторуглеродов (ХФУ) стало широко распространенным в 1960-х годах. Эти компоненты использовались в промышленности, а также в домашних условиях в установках кондиционирования воздуха и аэрозолях, таких как лак для волос. Когда ученые проанализировали изменения озонового слоя, стало ясно, что мы наносим ему ущерб из-за широкого использования продуктов, содержащих эти химические вещества. Первоначально открытие натолкнулось на различные попытки дискредитировать расследование со стороны отрицателей и компаний, использующих вредные соединения. Президент одной компании по производству аэрозолей даже заявил, что за критикой ХФУ стоит КГБ. Научные открытия окончательно выиграли спор, уступив место Монреальскому протоколу 1987 года. В соответствии с этим договором производство озоноразрушающих веществ, таких как ХФУ, было прекращено. По оценкам ООН, с тех пор дыра сокращалась от одного до трех процентов за десятилетие. Несколько статей (например, здесь и здесь) показывают, как исцеление озонового слоя тесно связано с этим изменением нашего поведения, а не просто удачным совпадением.

Частью решения является сохранение существующих лесов или реализация проектов по увеличению площади покрытых деревьями территорий. Кроме того, инициатива по компенсации выбросов углекислого газа является отличным способом обеспечения экономических стимулов для этой деятельности. Но увеличение площади лесов или разработка более технологических решений по удалению парниковых газов из атмосферы не решит проблему полностью. Чтобы достичь точки, при которой концентрация таких газов начинает снижаться, нам нужно как можно скорее сократить выбросы. Это будет непростая задача, но она стоит того. Это подробно объясняется в статье Чтобы остановить изменение климата, время так же важно, как и технологии доктора Джонатана Фоули (исполнительный директор Project Drawdown).

Мы ведем гонку со временем. К счастью, нашими союзниками являются наука и данные. Мы должны использовать эту информацию, чтобы формировать наше поведение и подталкивать разработчиков политики и компании к внесению изменений для сокращения выбросов.