Автор Хамед Алемохаммад, исполнительный директор и главный специалист по анализу данных, Radiant Earth Foundation

В декабре 2019 года мы публично запустили Radiant MLHub, первый облачный репозиторий с открытым доступом для наборов геопространственных обучающих данных. С тех пор мы постоянно публиковали новые наборы данных и расширяли экосистему вокруг Radiant MLHub.

Идея Radiant MLHub родилась весной 2018 года после нескольких обсуждений и отзывов членов сообщества и спонсоров. Мы начали новый проект LandCoverNet по разработке глобального и географически разнообразного обучающего набора данных о земном покрове с использованием человеческой верификации. Вскоре после запуска LandCoverNet в 2018 году мы выявили пробел в экосистеме, чтобы облегчить публикацию и внедрение наборов обучающих данных в нашем сообществе. Этот пробел в цепочке создания ценности данных привел нас к разработке и внедрению Radiant MLHub.

Цепочка создания стоимости данных

Согласно описанию, сформулированному Open Data Watch, цепочка создания ценности данных состоит из четырех основных этапов: сбор, публикация, внедрение и воздействие. На рисунке 1 показаны различные процессы на каждом из этих этапов и показано, что значение данных увеличивается по мере перехода от сбора к воздействию.

Несмотря на то, что различные секторы проявляют интерес к работе на этапе сбора данных, меньшая заинтересованность в содействии публикации и внедрению, особенно с предоставлением инфраструктуры и стандартов. Сбор данных обычно сосредоточен вокруг проекта или, в случае некоторых коммерческих организаций, вокруг продукта. Следующим шагом в этих случаях является внутреннее использование данных и, возможно, публикация результатов исследования или выпуск конечного продукта.

Чтобы максимизировать ценность набора данных, благотворительные и правительственные организации требуют открытой публикации данных и результатов исследований от получателей грантов. В случае проектов, которые используют машинное обучение (ML) для геопространственных данных, такой мандат требует инфраструктуры и экосистемы, чтобы обеспечить легкий обмен данными, предоставляя кредиты и стимулы для издателей данных. Такая инфраструктура также должна соответствовать принципам ЧЕСТНЫХ данных (возможность поиска, доступность, возможность взаимодействия и возможность многократного использования).

Radiant MLHub был создан, чтобы восполнить этот пробел. Он разработан на основе принципов FAIR и поддерживается такими стандартами сообщества, как SpatioTemporal Asset Catalog (STAC). Хотя Radiant MLHub ориентирован на публикацию и внедрение наборов данных для геопространственного обучения, мы будем тесно сотрудничать с организациями на этапах сбора данных и воздействия на данные, чтобы лучше информировать наш выбор дизайна. В то же время мы будем предоставлять обратную связь этим организациям, чтобы обеспечить совместимость данных на нескольких этапах цепочки создания ценности.

С момента своего запуска Radiant MLHub собрал большое и разнообразное сообщество пользователей, которые использовали API для поиска и доступа к готовым к ML обучающим наборам данных. Более того, у нас есть регулярные входящие запросы на размещение новых наборов данных. Основываясь на отзывах пользователей, мы разработали дорожную карту на 2021 год, чтобы расширить наши услуги и повысить удобство использования Radiant MLHub.

Дорожная карта на 2021 год

Улучшение пользовательского опыта

Наша основная цель - сделать поиск и загрузку данных с Radiant MLHub удобными для пользователей с различным уровнем опыта. До сих пор пользователи использовали API и писали собственный код для поиска данных и загрузки отдельных элементов или наборов данных. Сейчас мы разрабатываем Python Client, совместимый с STAC API, чтобы помочь пользователям взаимодействовать с API в Python без написания базовых вызовов API. Насколько нам известно, это первый клиент Python для API STAC, и мы надеемся, что он также побудит другие группы в нашем сообществе внести свой вклад. Ищите объявления о первом выпуске клиента Python в марте 2021 года.

Определение метаданных для каталогизации моделей

Radiant MLHub - это больше, чем просто репозиторий данных. Мы думаем о Radiant MLHub как о наборе общих ресурсов для продвижения приложений машинного обучения к наблюдениям за Землей. Поэтому мы стремимся расширить свои услуги, чтобы удовлетворить потребности сообщества в этом отношении. Одна из таких потребностей - это библиотека существующих моделей машинного обучения, которую пользователи могут легко найти и применить на практике (либо для вывода, либо с использованием ее в качестве предварительно обученной модели).

Хотя в экосистеме машинного обучения есть несколько примеров таких каталогов моделей, они не поддерживают метаданные, связанные с геопространственными моделями машинного обучения. Например, кого-то могут заинтересовать модели, которые обнаруживают поверхностные воды с определенным пространственным разрешением, или модель, обученная на данных из определенного географического региона. Поэтому мы разрабатываем каталог геопространственных моделей машинного обучения, который пользователи могут: 1) регистрировать и публично публиковать свои модели и 2) искать существующие модели с использованием различных параметров запроса. Для этого каталога потребуется стандартное определение метаданных модели, которое мы разработаем в консультации с различными группами во всех секторах сообщества.

Обучение и развитие потенциала

Один из трех столпов Radiant Earth - это образование, повышение осведомленности и способность вдохновлять на более эффективное использование данных наблюдений за Землей для решения проблем международного развития. Нашей первоначальной целью с момента запуска было создание инфраструктуры и расширение каталога данных. В 2021 году мы расширяем нашу деятельность по обучению и развитию потенциала. Мы собираемся провести наш первый виртуальный учебный буткемп, посвященный ML для EO, и организовать еще два соревнования по новым сложным наборам данных для обучения, которые мы разместим на Radiant MLHub.

Мы с нетерпением ждем совместной работы по усилению ML на EO в наступающем году!