В Блоге прошлой недели о местах, где аннотации данных играют роль в жизненном цикле MLOps, мы получили много разговоров и отзывов от читателей. Понятно, что аннотации должны играть роль в истории, которую мы рассказываем о MLOps, если известно, что подход, ориентированный на данные, приносит пользу. Здесь, в ZenML, мы с энтузиазмом относимся к тому, как мы можем поддержать интеграцию этих моделей поведения и практик в рамках более широкого жизненного цикла машинного обучения, поэтому мы подготовили кое-что, чтобы поддержать всех вас, кто заинтересован в опробовании некоторых из этих инструментов. Но об этом чуть позже!

Мы рассмотрели пространство аннотаций и маркировки, а также то, как они пересекаются с практиками жизненного цикла машинного обучения в производстве. Если MLOps — быстро развивающаяся область, то похоже, что аннотация данных не менее динамична, и новые инструменты выпускаются постоянно. Большая разница, по-видимому, заключается в том, что большая часть инноваций в аннотации происходит за закрытыми дверями; пространство с открытым исходным кодом в настоящее время является гораздо менее конкурентной ареной. Действительно, это, вероятно, большой выбор, который вам придется сделать, если вы выберете, какой инструмент аннотации использовать: интегрироваться с платформой с закрытым исходным кодом, которая делает много, или выбрать более гибкий вариант с открытым исходным кодом с меньшим количеством функций.

Компромиссы для обоих часто аналогичны более широким инструментам выбора открытого исходного кода для MLOps. (См. блог Мэтта Сквайра о том, почему MLOps с открытым исходным кодом — это прекрасно, для прочной позиции о том, почему вы должны использовать открытый исходный код.) В общих чертах, открытый исходный код дает вам гибкость и свободу, хотя и с оговоркой, что могут некоторые начальные препятствия для настройки и работы именно так, как вы хотите. Если вы найдете платформу с закрытым исходным кодом, которая полностью соответствует вашей ситуации и потребностям, то это может быть выходом (по крайней мере, на начальном этапе). В конце концов и неизбежно ваши потребности изменятся, и в этот момент вы, вероятно, почувствуете боль от того, что застряли в коробке, которая не позволяет вам гибко изменять то, как инструмент служит вашим потребностям. Это одно из явных и выдающихся преимуществ выбора маршрута с открытым исходным кодом.

Имея все это в виду, я собрал список всех инструментов маркировки данных с открытым исходным кодом, доступных в настоящее время. Вы можете проверить наш awesome-open-data-annotation репозиторий здесь.

Основными критериями выбора были следующие:

  • Инструмент должен иметь лицензию с открытым исходным кодом.
  • Инструмент нуждается в активном обслуживании. (Чей-то хобби-проект 5-летней давности, вероятно, не будет иметь большого применения в производственной среде в 2022 году.)
  • Инструмент должен быть функциональным и соответствовать назначению.

Репозиторий демонстрирует 48 инструментов с разной специализацией, от текста до изображений и междоменных опций. Я был приятно удивлен, обнаружив такое количество. Кроме того, выбор включает в себя некоторые из них, которые существуют уже несколько лет, а также другие, которые намного новее. Это показывает, что это пространство по-прежнему рассматривается как место, где имеет смысл инвестировать в надежные инженерные решения. В качестве одного из примеров этого мы были рады видеть, что такие компании, как Recognai, продвигаются вперед в разработке инструмента текстовых аннотаций Rubrix.

Мы приветствуем вклады в этот репозиторий. От предложений инструментов, которые мы пропустили, до категорий аннотаций, о которых мы не знали, пожалуйста, не стесняйтесь присылать нам свои запросы на включение!

🔥 Используете ли вы эти инструменты или хотите добавить один в свой стек MLOps? В ZenML мы ищем партнеров и партнеров по проектированию для разработки интеграций и рабочих процессов с использованием аннотаций в жизненном цикле MLOps. Если у вас есть вариант использования, который требует аннотирования данных в ваших конвейерах, пожалуйста, сообщите нам, что вы создаете, и есть инструменты, без которых вы не можете жить! Самый простой способ связаться с нами — через наше сообщество Slack, к которому вы можете присоединиться здесь.

[ Обложка от Дарьи Трифановой на Unsplash]

Первоначально опубликовано на https://blog.zenml.io 10 июня 2022 г.