Эффективная автоматизация

Оценка актуальности машинного обучения для сообщества GEOINT

Тодд М. Бэкастов, Radiant Solutions; д-р Абель Браун, NVIDIA; Гейб Чанг, IBM; Давид Готье, NGA; и Дэвид Линденбаум, CosmiQ Works

Машинное обучение (МО) существовало в различных формах на протяжении многих десятилетий, но только в последние годы, с появлением новых методов глубокого обучения и аппаратного обеспечения с более надежной вычислительной мощностью, алгоритмы достигли производительности «человеческого уровня». . ImageNet Challenge с его большой визуальной базой данных привел к значительным улучшениям в визуальном распознавании объектов. В 2017 году ImageNet представила алгоритмы, которые дали менее трех процентов ошибок при идентификации объектов на повседневных фотографиях — показатель, который считается лучшим, чем даже уровни производительности человека. Однако это не означает, что такие алгоритмы заменят человека. Хотя результаты впечатляют, ImageNet состоит из фотографий повседневных предметов. В отличие от геопространственной области, спутниковые снимки добавили сложностей в плане перспективы сверху и ограниченного помеченного обучения. По этим причинам подходы, основанные на глубоком обучении, предлагают огромный потенциал для поддержки геопространственных аналитиков и лиц, принимающих решения, в использовании огромных объемов данных, генерируемых постоянно растущим числом датчиков и методов сбора данных.

Поиск в Интернете, распознавание изображений, понимание человеческой речи и приложения глубокого обучения в социальных сетях в последнее время имели значительный успех, хотя четкая дорожная карта интеграции для оборонных и разведывательных сообществ остается проблемой из-за сложности, масштаба и чувствительности различных Портфолио миссии. В этой статье делается попытка охарактеризовать состояние машинного обучения для сообщества геопространственной разведки (GEOINT) и изучить актуальность текущей миссии. Перспектива глубокого обучения заключается в способности использовать мощь машинной обработки на скорости и в масштабе, чтобы помочь людям достичь лучших результатов по сравнению с использованием традиционных и, возможно, трудоемких ручных подходов.

Возможности и вызовы

Машинное обучение предлагает многообещающие вспомогательные технологии для людей, чтобы использовать автоматизацию или полуавтоматизацию традиционно выполняемых вручную задач, где скорость и масштаб часто необходимы для решения современных задач. Эта тенденция проявляется во многих отраслях, от СМИ до медицины и, конечно же, в обороне и разведке. Ключевым фактором во всех отраслях является доступность огромных объемов данных в домене. Эти данные — в сочетании с высокопроизводительными, относительно недорогими вычислительными мощностями и возможностью использовать распределенную рабочую силу для создания помеченных обучающих данных с помощью краудсорсинга — создали идеальный шторм для ускорения приложений машинного обучения. Использование машинного обучения становится необходимостью, учитывая огромные объемы данных от множества датчиков и растущие требования миссии в нашем сложном, взаимосвязанном мире. При обучении с использованием человеческого интеллекта алгоритмы предлагают масштаб, скорость и, во все большей степени, повышенную точность, что позволяет аналитикам выполнять больше и сосредоточиться на задачах, которые они приносят наибольшую пользу.

Аналитикам и специалистам по обработке и анализу данных все чаще приходится манипулировать огромными поступающими данными более интуитивно понятными способами. Интеграция аналитических инструментов, методов машинного обучения, естественного языка или улучшенных пользовательских интерфейсов позволила создать более эффективные средства для запросов и поиска в хранилищах данных важных фрагментов информации. Поскольку машинное обучение по своей сути является итеративным, хотя и быстрым подходом к получению «правильного» ответа, благодаря средам глубокого обучения существует возможность проверить многочисленные гипотезы, уменьшить количество ложных срабатываний и добиться более надежной интерпретации данных.

Кроме того, с распространением новых сенсоров и феноменологии возрастает потребность в автоматизации маркировки метаданных, интеграции различных форматов данных и обработке необработанной информации до того, как она будет принята и использована. Слияние различных наборов данных может дать альтернативные средства обнаружения непонятных объектов и подтверждения результатов (достоверность данных).

Одной из наиболее серьезных проблем в достижении актуальности миссии с помощью ML для приложений сообщества GEOINT являются предварительные условия, в том числе доступность больших помеченных наборов обучающих данных и хрупкость алгоритмов, которые хорошо работают в средах исследований и разработок, но могут иметь ограничения при эксплуатации. Данные для обучения идеально генерируются из источников, имеющих: 1) доступ к необходимым вычислительным ресурсам; 2) рабочая сила с необходимыми знаниями в области ОД; 3) понимание оперативных сроков и требований к производительности; и 4) достаточно большие входные наборы данных, имеющие значительную ценность. Эти четыре строительных блока необходимы для обучения алгоритмов, чтобы их можно было запускать своевременно (или в режиме реального времени) для соблюдения сроков миссии. После создания эксперты должны измерить производительность и подтвердить полезность алгоритмов в реальных ситуациях.

Текущее состояние машинного обучения

Текущее состояние геопространственного использования ML в сообществе GEOINT в первую очередь сосредоточено на разработке новых алгоритмов и повышении точности, часто измеряемой точностью и полнотой. Большая часть этих исследований сосредоточена на применении достижений компьютерного зрения в геопространственной области, учитывая обилие изображений с различных датчиков. За последние два года было запущено шесть таких наборов данных компьютерного зрения и конкурсов, связанных с геопространственными приложениями:

  • Конкурс IARPA по многопросмотровому стереофоническому 3D-картографированию
  • SpaceNet Challenge от CosmiQ Works, DigitalGlobe и NVIDIA
  • Задача семантической сегментации Лаборатории оборонной науки и технологий
  • Функциональная карта мировых вызовов IARPA
  • Конкурс «Планетный лес»
  • Городской 3D-вызов USSOCOM

Эти открытые соревнования разработали свои собственные обучающие данные и показатели для оценки производительности алгоритма. Это создание обучающих данных имеет большое значение. Например, набору данных SpaceNet Round 2 потребовалось около 24 дней, чтобы создать около 300 000 контуров зданий площадью более 424 квадратных километров в четырех городах. Кроме того, алгоритму-победителю потребовалась целая неделя для обучения на одном графическом процессоре (GPU) — график, который можно было бы ускорить с помощью большего количества GPU. Время вывода, или скорость, с которой обученная нейронная сеть может работать с новыми данными, составляла примерно 1800 квадратных километров в день, хотя количество времени и данных, необходимых для достижения такой скорости алгоритма, сокращает область его применения.

Если алгоритм ненадежен — т. е. требует переобучения для каждой новой ситуации — будет сложно использовать эти алгоритмы для решения возникающих проблем GEOINT. Важно понимать требования к времени обучения и данным для алгоритма, в дополнение к показателям производительности, таким как точность и полнота, чтобы изучить потенциальную точность алгоритма для будущих приложений миссии.

OpenStreetMap в основном поддерживается с помощью ручных средств, в которых участники добавляют к карте, используя оцифровку изображений с высоты птичьего полета или загружая GPS-треки для областей, которые они считают необходимым обновить. Чтобы расставить приоритеты в областях, где необходимы срочные обновления, менеджер задач гуманитарной команды OpenStreetMap перечисляет здания, дороги и землепользование в качестве основных объектов, которые необходимо нанести на карту. Кроме того, двумя наиболее распространенными типами запросов на сопоставление являются аварийное реагирование и отсутствующие карты. Текущие алгоритмы могут помочь в ускорении отсутствующих картографических задач. Потенциал применения алгоритмов для усиления и экстраполяции усилий людей-участников значителен.

Однако в ситуациях реагирования на стихийные бедствия важны сроки. Ключевой вопрос, который необходимо решить, звучит так: «Как вы можете предоставить достаточно хорошие решения достаточно быстро, чтобы они были полезны в реальной ситуации аварийного реагирования и восстановления?» Если для получения обучающих данных, необходимых для использования ML, потребуется три недели, польза для служб быстрого реагирования будет ограничена, поскольку временная шкала будет выходить за пределы периода реагирования и значительно уходить в период восстановления для большинства событий.

В дополнение к краткосрочным задачам, которые требуют картографирования базового уровня, таких как здания и дороги, в настоящее время значительные усилия прилагаются для картографирования населения мира. Каждый год Национальная лаборатория Ок-Риджа выпускает продукт LandScan, который предоставляет данные о глобальном распределении населения с разрешением в 1 км. Этот продукт создан путем слияния геопространственной информации с данными переписи населения и используется для широкого спектра действий, таких как моделирование эпидемий или планирование кампаний по вакцинации. По мере того, как алгоритмы машинного обучения создают решения основных геопространственных проблем, они повышают точность этих карт населения. Хотя картирование населения не имеет краткосрочных временных рамок, которые диктует реагирование на стихийные бедствия, оно должно поддерживать актуальность. Масштаб усилий создает серьезные проблемы как для поддержания согласованности продукта данных, так и для поддержания приемлемого цикла обновления данных для предоставления требуемых ежегодных обновлений. По мере появления оперативных алгоритмов важно понимать масштаб и качество данных.

Подходы ML могут помочь в ситуациях, когда можно помочь маркировщикам данных ускорить процесс, а также в ситуациях, когда набор данных настолько велик, что анализ только человеком невозможен. Поскольку сообщество продолжает изучать подходы МО к проблемам GEOINT, мы также должны продолжать изучать, как сделать эти алгоритмы и модели эффективными в широком диапазоне условий, возникающих в реальных сценариях.

Практический пример: машинное обучение в NGA

На основе исследования основных проблем 2017 года, проведенного Управлением директора национальной разведки (ODNI) по анализу систем и ресурсов, Национальное агентство геопространственной разведки (NGA) работает со своим Министерством обороны (DoD) и Разведывательным сообществом (IC). ) партнеры по стратегии и дорожной карте интеграции для реализации возможностей машинного обучения. Благодаря своей исторической миссии и огромной заинтересованности в автоматизации использования изображений в будущем, NGA берет на себя ведущую роль в управлении исследованиями, разработками и управлением возможностями компьютерного зрения (CV) для спутниковых и воздушных изображений. «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Он включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания».

В дополнение к координации того, какие организации будут развивать какие возможности, NGA признает критический характер разработки стандартов в областях технических спецификаций, совместимости данных, происхождения алгоритмов и критериев проверки для решений CV. Он направлен на поддержку этих стандартов с помощью модели управления, которая поощряет открытые инновации и прозрачность, что нечасто встречается в государственных учреждениях.

В качестве первого шага NGA недавно объявила о создании Управления автоматизации, дополнений и искусственного интеллекта (AAA), которое приступит к формализации своего плана реализации. Высокоуровневая стратегия внедрения операционного ИИ заложена в названии этого нового офиса: она заключается в автоматизации рутинных задач, чтобы вернуть критически важное время сотрудникам, в то же время дополняя сложные задачи по принятию решений машинной поддержкой. Впервые передовые технологии искусственного интеллекта дают многообещающие результаты в обоих этих направлениях для приложений, связанных с производственными операциями GEOINT.

Примерами автоматизации рутинных задач для операторов GEOINT с помощью ML являются функции подготовки данных, обработки данных и поиска изображений (с использованием CV). Ожидается, что применение последних достижений в области глубокого обучения к таким задачам вызовет всплеск производительности труда человека. NGA и ее партнерам необходимо повысить производительность на несколько порядков, чтобы, возможно, использовать постоянно растущее количество доступных изображений. Способность находить и извлекать нужную информацию из огромного количества данных делает машинное обучение критически важным для успеха миссии. Примерами дополнительных сложных задач по принятию решений являются оптимизация ресурсов, проверка гипотез и функции обнаружения закономерностей. Ожидается, что применение решений машинного обучения для таких задач приведет к лучшей поддержке принятия решений за счет использования большего количества исходных данных и возможности повышения сложности за счет понимания многовариантных взаимодействий. Проще говоря, машины могут искать в большем количестве наборов данных, используя больше переменных, чтобы обнаруживать корреляции, которые люди не могут. Люди могут поместить эти выводы в более широкий контекст миссии, чтобы понять, имеют ли они значение. Автоматизация и аугментация — это начальные шаги в реализации спектра решений ИИ.

В то время как NGA признает неотъемлемую силу машинного обучения для повышения производительности результатов своей миссии и сложности принятия решений, решения на основе машинного обучения также создают серьезную проблему для собственной полезности: кажущееся отсутствие доверия и прозрачности. Одним из первых требований к решениям машинного обучения в сообществе GEOINT будет возможность разоблачать их методы — что даже Google выразил затруднение в своих сетях глубокого обучения. NGA требуется структура для оперативного тестирования и оценки решений машинного обучения, чтобы обеспечить уровень уверенности посредством проверки и проверки того, что эти решения будут правильно работать для их клиентов в сфере обороны и разведки. Любой партнер миссии, работающий сегодня над решениями ML, должен учитывать этот фундаментальный аспект их полезности.

Кроме того, есть и другие факторы, которые могут быть встроены в решения ИИ, чтобы повысить их доверие. Во-первых, дизайн пользовательского интерфейса может обеспечить постоянную обратную связь о внутренней работе системы. Самое простое представление этого на сегодняшний день — визуальная подсказка на экране, которая определяет, когда машина обрабатывает запрос, с помощью строки состояния. С системами ИИ диапазон обратной связи и общения с пользователем будет намного сложнее и, следовательно, потребует акцента на элегантном дизайне. В конечном счете, NGA нужны решения с искусственным интеллектом, которые предлагают мягкую ориентацию на пользователя с высокой степенью доверия, двусторонней обратной связью и прозрачной проверкой эффективности решения.

Наконец, NGA наметила стратегию по созданию рабочей силы, готовой к возможностям ИИ, которую она называет «рабочей силой, использующей данные». Благодаря сочетанию широкомасштабных возможностей обучения и обучения, а также целенаправленной стратегии найма, NGA подробно определила цели и задачи своих технических кадров на следующие пять лет. Использование этих новых возможностей является проблемой, с которой также столкнутся многие государственные учреждения и коммерческие организации. Чтобы извлечь выгоду из автоматизации, организация должна помочь обучить своих сотрудников основам машинного обучения, чтобы эту возможность можно было применять к ручным задачам в различных ролях.

Вывод

Итак, остается вопрос: «Актуальна ли миссия машинного обучения сегодня для сообщества GEOINT?» Короткий ответ: «Да, и его актуальность растет». Несмотря на то, что остаются проблемы, связанные с созданием помеченных обучающих данных, алгоритмов обучения и их применением в контексте миссии с прозрачностью для пользователя, за последний год был достигнут значительный прогресс, и машинное обучение оказывает влияние на миссию по мере роста потребностей миссии. Публичные призы помогли сделать геопространственные данные более доступными для исследований машинного обучения, что позволило разработать алгоритмы, которые в конечном итоге могут использоваться в миссии.

Эта актуальность будет расти с каждым годом по мере того, как будет доступно больше данных для обучения, увеличится доступность и мощность вычислений, улучшатся алгоритмы, а количество миссий, поддерживаемых ML, продолжит расти. Препятствия для использования преимуществ машинного обучения будут продолжать уменьшаться, и все больше конечных пользователей получат выгоду от этой технологии, чтобы лучше выполнять свои основные рабочие функции. Машинное обучение продолжит создавать богатые возможности для миссии GEOINT во многих секторах.

Эта статья является частью отчета USGIF о состоянии и будущем GEOINT за 2018 год. Скачать PDF, чтобы просмотреть отчет полностью и прочитать эту статью с цитатами.