Рахул Рамачандран

В этом коротком блоге описывается наш путь к базовым моделям ИИ и тому, как они могут дополнить научные данные и жизненный цикл исследований.

Предыстория

Научная миссия НАСА состоит в том, чтобы ответить на важные и глубокие научные вопросы о Вселенной. Чтобы помочь ответить на эти вопросы, агентство собрало огромное количество данных, которые сыграли ключевую роль в ускорении научных открытий. Канонический пример в науке о Земле относится к началу 1960-х годов, когда НАСА запускало экспериментальные метеорологические спутники для Национального бюро погоды. Серия TIROS была чрезвычайно успешной в обеспечении совершенно новой перспективы из космоса и продолжалась в течение двух десятилетий. На рисунке ниже показано красивое черно-белое изображение, содержащее аномальную линию облаков. Это было связано с дымовыми шлейфами от кораблей над Атлантикой. Это наблюдение привело к исследованию аэрозолей, их воздействия на окружающую среду, радиационного баланса и, конечно же, изменения климата. Сейчас это широкая и активная область исследований и отличный пример того, как данные НАСА меняют направление науки. Так было в прошлом и будет продолжаться в будущем.

НАСА обладает самой большой в мире коллекцией данных наблюдения Земли. Эта обширная коллекция основана на нашей миссии — понять нашу планету как единую систему. Эти наблюдения охватывают все основные дисциплины наук о Земле — сушу, атмосферу, океан, криосферу и человеческие измерения. Основываясь на архивных показателях 2021 года, объемы данных наук о Земле в настоящее время составляют примерно 60 петабайт (Пб) и, по прогнозам, вырастут до 250 Пб с ​​предстоящим запуском двух миссий с высокой скоростью передачи данных. Для ощущения масштаба 1 Пб примерно эквивалентен 500 миллиардам страниц печатного текста.

Архив обслуживал 1,7 миллиона пользователей по всему миру, при этом конечным пользователям было передано около 2 миллиардов файлов.

Создание науки

Данные и рисунок жизненного цикла исследований, приведенные ниже, содержат строительные блоки, которые делают науку и приложения возможными. Данные находятся в центре, потому что это центр тяжести; однако обращение с этими данными представляет собой сложный, спроектированный процесс жизненного цикла данных, который позволяет создавать, управлять, распространять и сохранять данные. Жизненный цикл данных состоит из множества шагов, и каждый шаг является итеративным. Процесс жизненного цикла обернут слоем инструментов и инфраструктуры. Данные, жизненный цикл данных, инструменты и инфраструктура — это то, что делает возможными исследования и приложения — внешний круг.

Как мы можем постоянно активизировать и оптимизировать исследовательский процесс и снизить входной барьер, чтобы эффективно использовать наши полные наборы научных данных? Это задача проекта IMPACT.

Роль базовых моделей ИИ

ИИ может сыграть решающую роль в улучшении и расширении возможностей открытия, доступа и использования научных данных. Для этого ИИ должен систематически внедряться как в наши внутренние процессы (жизненный цикл данных, как показано на рисунке ниже), так и в исследовательский процесс. Если делать это новыми и инновационными способами, это ускорит научные открытия.

Наш первый набег на фундаментальные модели начался с создания языковой модели для наук о Земле. Первая версия, получившая название BERT-E, была построена путем доработки существующей модели BERT. Несмотря на то, что производительность модели может быть существенно улучшена, даже в ее текущем состоянии, модель полезна для последующих задач.

В это время мы начали наше сотрудничество с командой IBM Research. Это государственно-частное сотрудничество с использованием соглашений о космическом акте является частью нашей систематической стратегии по привлечению частного сектора в качестве «ускорителей конвергенции» — для внедрения инноваций. Команда IBM с нуля построила модель для предметной области наук о Земле, используя большой массив из более чем 100 тысяч журнальных статей по наукам о Земле. Ценность построения предметно-ориентированной модели можно увидеть в приведенных ниже примерах завершения предложений. Результаты языковой модели ES являются точными по сравнению с расплывчатыми ответами общей модели.

Мы планируем внедрить эту новую модель в наши существующие операционные процессы. Одним из приложений является использование этой улучшенной модели в нашей службе тегов научных ключевых слов. Использование языковой модели, относящейся к наукам о Земле, для создания классификатора ключевых слов уменьшит несоответствия и поможет распорядителям данных объективно выбрать оптимальные научные ключевые слова. Надлежащая научная аннотация ключевых слов к описаниям данных, в свою очередь, улучшит поиск и обнаружение наборов данных. Другое приложение предназначено для поддержки процесса оценки Рабочей группы по спутниковым потребностям (SNWG). Каждые два года все гражданские федеральные агентства направляют в НАСА свои потребности в наблюдении за Землей. За последние два цикла мы получили около 120 описаний потребностей. Эти потребности должны быть объединены в различные тематические области науки НАСА, а затем отправлены ученым программы и их группам, ведущим процесс оценки по каждой конкретной теме. В течение последних двух циклов один руководитель проекта отвечал за чтение всех описаний потребностей и их распределение по разным темам. Использование языковой модели позволило нам разработать простой тематический классификатор, который существенно сократил усилия руководителя проекта и процесс подготовки ответов.

Во время нашего сотрудничества команда IBM Research поделилась документом о базовых моделях. Базовые модели (FM) — это модели ИИ, предварительно обученные на всеобъемлющих наборах данных с использованием самоконтролируемого обучения, которые можно использовать для множества различных последующих задач. Наборы данных должны быть последовательными по своей природе, и это устраняет необходимость иметь большие помеченные наборы данных. В архиве НАСА хранятся большие многомерные данные временных рядов, которые можно использовать для создания этих базовых моделей. Документ был интригующим, потому что подход FM решит две из трех проблем, о которых сообщалось на семинаре 2020 года, посвященном продвижению инструментов машинного обучения к данным НАСА по наблюдению за Землей. Первая проблема — существующее узкое место, вызванное отсутствием доступности и доступа к большим обучающим данным. Вторая проблема заключается в том, что существующие модели машинного обучения плохо обобщают пространство и время.

Вопрос, стоящий перед нами, заключается в том, должны ли мы вкладывать время и ресурсы в создание больших базовых моделей для данных в наших архивах. Поможет ли это нашим пользователям данных отказаться от существующей парадигмы построения одной модели машинного обучения для каждого приложения? Можем ли мы построить ФМ для конкретных дисциплин наук о Земле, или ФМ следует создавать для подмножества наших архивов, т. е. ориентироваться на наши наборы данных «Кадиллака», которые уже имеют большое количество различных последующих приложений? Другой фундаментальный вопрос, который необходимо исследовать, заключается в том, отражают ли эти модели лежащие в основе физические процессы.

Если базовые модели действительно реализуют обещанный потенциал, они могут сыграть ключевую роль в ускорении развития науки и помочь раскрыть новые идеи из наших архивов. Мы можем представить себе будущее, в котором в наших строительных блоках, наряду с данными, мы используем различные FM для поддержки как данных, так и жизненного цикла исследований.

«…самые важные инновации в конечном итоге приводят к эффектам второго и третьего порядка, которые трудно предсказать заранее» — Стивен Джонсон

Это понимание может быть верным для FM-моделей. Учитывая скорость инноваций в технологиях, мы должны узнать об этом в ближайшее время.

Рахул Рамачандран — старший научный сотрудник NASA/MSFC и руководитель проекта IMPACT. Периодически он ведет короткие блоги, чтобы записывать идеи и мысли для участия в движении #OpenSourceScience, продвигая #OpenIdeas. Обратите внимание, что это сообщение не рецензируется и поэтому не должно считаться авторитетным.