Обучение у коллег

Этот пост входит в серию блогов, связанных с нашей работой в области мониторинга территорий. Мы решили открыто поделиться своими знаниями по этому вопросу, так как считаем, что необходимо обсуждение и сравнение подходов между всеми участвующими в нем группами. Мы будем приветствовать любые отзывы, идеи и извлеченные уроки. Для тех, кто хочет сделать это публично, мы будем рады разместить их здесь.

Содержание:

Оценка сходства основана на предположении, что все заявки на урожай определенной группы в окрестностях (скажем, в пределах 20 км и на аналогичной высоте) должны давать аналогичный сигнал (например, поведение индекса растительности во временном ряду). Все не граничные пиксели на всех участках этого типа культур можно извлечь и сравнить, и любое отклонение от сходства может быть связано, например, с неправильным заявлением, различными методами ведения сельского хозяйства, качеством почвы (наличием воды) и т. Д.

Следовательно, оценка сходства определяет, насколько похожа Интересная особенность (FOI) на другие FOI из своего района, имеющие такие же (или разные) требования. Например, насколько похожи кукурузные поля на другие кукурузные поля в окрестностях? Оценка сходства определяется следующим уравнением

где P ᵢᵏ (VI) представляет k -ое наблюдение индекса растительности (VI) для FOI с index i,

- среднее значение того же индекса растительности, оцененного на дату k -го наблюдения для n-ближайших-соседей из FOI i с тип урожая заявлен, и

их стандартное отклонение. Сумма k проходит по всем достоверным (т. Е. Безоблачным) наблюдениям. Оценка сходства в принципе снижена χ ² статистика, относящаяся к вероятностям и нулевым гипотезам . Низкое значение показателя сходства для FOI указывает на то, что эта FOI похожа на своих соседей с таким же заявлением, а высокое значение указывает на то, что это не связано, возможно, из-за неправильного утверждения, другой практики ведения сельского хозяйства, качества почвы (наличие воды ) и т. д. Оценка сходства может быть:

  • Очистка наборов данных для обучения (уменьшение шума этикеток; устранение ошибочных заявлений),
  • раннее выявление фермерам и другим лицам потенциальных ошибок в претензии,
  • предоставление дополнительной информации в приложении «Экспертная оценка» (где эксперты могут принимать решения в интерактивном режиме).

Оценки подобия можно легко рассчитать автоматически для всех FOI в наборе данных, не требуя обучения модели или точной настройки некоторых параметров. Однако, поскольку он основан только на одном индексе растительности, он довольно груб.

На рисунке ниже показаны профили NDVI целевого FOI, заявленного как кукуруза, и средний профиль NDVI до 500 кукурузных полей в пределах примерно 10 километров на аналогичной высоте. В этом случае оценка сходства составляет 0,49, что указывает на то, что целевая FOI похожа на другие с таким же заявлением из соседства. Это также можно визуально подтвердить, сравнив два профиля NDVI (целевая FOI показана зеленой пунктирной линией с оранжевыми узлами, синяя линия представляет среднее значение соседнего зерна и голубая область указывает стандартное отклонение).

Более интересный пример показан на рисунке ниже. В этом случае целевая зона свободы информации, заявленная как постоянный луг, оказывается совсем не похожей на другие луга из этого района (оценка сходства составляет 8,07). 99,8% всех FOI с заявлением о лугах в наборе данных имеют показатель сходства с гипотезой о лугах менее 8,07. Тот же целевой FOI имеет наименьший показатель сходства по сравнению с другими кукурузными полями в его окрестностях. В этом случае оценка сходства составляет 0,48. Только 0,1% FOI с заявлением о луге имеют показатель сходства для гипотезы кукурузы менее 0,48. Распределение баллов сходства для гипотез о луговых и кукурузных лугах для FOI с притязаниями на луг и кукурузу показано на рисунке ниже.

График профилей NDVI также визуально подтверждает несходство целевых FOI по отношению к лугам и сходство по отношению к кукурузным полям.

Приведенные выше графики распределения баллов сходства для гипотез о луговых и кукурузных показывают, что луга можно хорошо отделить от кукурузных полей на основе любого из этих двух показателей сходства. Этот вывод может быть тривиальным для сравнения лугов и кукурузы, но может быть не таким тривиальным, если, например, луг сравнивают с яровой или озимой пшеницей. Кривые рабочих характеристик приемника (ROC) и область оценки под кривой ROC (ROC AUC) могут обеспечить более отличительные качества. На рисунке ниже показаны кривые ROC и ROC AUC для лугов с использованием оценок сходства, рассчитанных с использованием гипотез о луговой и яровой пшенице, кукурузе или озимой пшенице.

Такое исследование или сравнение можно расширить для всех возможных пар типов культур. Выполнение этого для всего набора данных дает матрицу значений ROC AUC, показанную на рисунке ниже. Элемент матрицы ROC AUC (строка A, столбец B) дает значение ROC AUC, которое вычисляется между всеми FOI с метками A и B, имеющими не-нан (вычисляемый) показатель сходства для гипотезы B. FOI с меткой A не имеют оценка сходства nan для гипотезы B, если существует не менее 20 FOI с меткой B в области, определенной с радиусом около 10 километров. Истинные случаи A будут иметь большую оценку сходства для гипотезы B, в то время как истинные случаи B должны иметь меньшую оценку. Значение ROC AUC, близкое к 1 (0,5), указывает на то, что оценка сходства может (не) хорошо разделить два класса.

Многие элементы в матрице имеют высокие значения, но в матрице есть блоки с более низкими значениями ROC AUC. Один такой блок находится, например, в правом нижнем углу матрицы и соответствует типам культур с кодом 80X: озимые зерновые, которые, конечно, очень похожи друг на друга.

Другие меры расстояния

Оценка подобия тесно связана с евклидовым расстоянием (ED) между двумя временными рядами x и y длиной м, определяемыми как:

где i обозначает i -й элемент временного ряда. ED предполагает, что сэмплы находятся в одном и том же (временном) месте. Это предположение можно обойти путем повторной выборки (например, линейно / по ближайшему соседу, ..) исходного временного ряда к целевому временному ряду.

Предварительного временного выравнивания временных рядов FOI, которые сравниваются посредством передискретизации, можно избежать в случае измерения (несхожести) динамического искажения времени (DTW). Здесь временные ряды оптимально выровнены (или деформированы) во временной области, так что совокупная стоимость этого выравнивания минимальна. В канонической форме эту накопленную стоимость можно получить с помощью динамического программирования, рекурсивно применяя

для i = 1, .., M и j = 1,…, N, где M и N - длины x и y. Функция локальной стоимости f () будет зависеть от текущей задачи. В случае одномерных временных рядов обычно берется квадрат разницы между x ᵢ и y ᵢ. Для многомерных временных рядов часто используется евклидово расстояние. Последний показатель DTW соответствует общей накопленной стоимости свыше M и N.

Примеры использования для измерений расстояния Евклида и Дистанционного искажения времени могут быть следующими:

  • Идентификация FOI из окрестностей целевых FOI, которые имеют меньшие расстояния до целевой FOI. Приложение экспертной оценки может, например, отображать эти FOI, которые тесно связаны с целевой FOI, в пространстве функций на основе любой из этих метрик расстояния. На рисунках ниже показаны временные ряды NDVI для целевого FOI вместе с 5 FOI с наименьшим расстоянием до целевого FOI.

  • Изучая расстояния между различными типами культур, разработчик маркеров CAP и системы CAP может лучше понять и понять, какие типы культур (или группы) (не) похожи друг на друга. На рисунках ниже показаны графики скрипки, показывающие, насколько хорошо измеренные расстояния между FOI, заявленными для выращивания культур типа A, отличаются от значений FOI, заявленных для выращивания чего-то другого.

Выше мы показали два примера FOI - один ошибочно утверждал, что это луг, а другой - кукурузное поле. На рисунках ниже для тех же двух FOI показано, что мы можем узнать, глядя на евклидовы расстояния между этими двумя FOI и их 500 соседями. Мы выяснили, что для обоих FOI они больше всего похожи на кукурузу или кукурузу на силос. Тот факт, что ошибочно заявленный FOI луга является исключением среди других FOI лугов в его окрестностях, также указывается высоким (1,00) значением внутриклассового ранга. Последний представляет собой нормализованный ранг среднего расстояния во временном ряду между целевым FOI и FOI одного и того же объявленного типа культуры по отношению ко всем попарным расстояниям между FOI одного и того же типа культуры. Значение ранга можно использовать для выявления выбросов аналогично баллу подобия.

Наши исследования в этой области любезно поддержаны грантами и ноу-хау нашего сотрудничества в проектах Horizon 2020 (Perceptive Sentinel, NIVA, Dione) и ESA (Sen4CAP).