«Проводите больше времени со своими данными». Как специалист по данным или специалист по машинному обучению, вы, вероятно, слышали этот совет больше раз, чем можете сосчитать. Знакомство с данными способствует пониманию проблемной области, что, в свою очередь, приводит к лучшим моделям и решениям. Но как это сделать на практике? Сам факт того, что нам нужно об этом напоминать, предполагает как минимум некоторую неясность.

Один из способов ближе познакомиться с вашими данными — принять участие в их маркировке. Этот подход недавно приобрел популярность после появления движения ИИ, ориентированного на данные. В этом блоге я объясню преимущества более активного участия в аннотации и маркировке ваших данных. Я также расскажу о моментах в вашем общем рабочем процессе, когда вы, вероятно, подумаете о аннотации, и о том, какую пользу это принесет вам в каждом случае.

Почему вы можете захотеть пометить свои собственные данные

Я предполагаю, что через несколько лет мы увидим стремление к «ориентированному на данные ИИ» как поправку к тому, как все делается рутинно, а не как совершенно отдельный подход или дисциплину. Действительно, если вы поговорите с любым исследователем из мира гуманитарных или социальных наук, все они подтвердят важность знакомства с исходными материалами того, с чем вы работаете.

Я учился и переучивался этому бесчисленное количество раз в своей карьере и могу засвидетельствовать преимущества, которые дает погружение в источники и материалы, составляющие предметную область или контекст вашей проблемы. Вы очень редко обнаружите, что не извлекаете пользу из знакомства с этими данными. (Вы по-прежнему хотите с умом относиться к тому, сколько именно времени вы тратите на это, но я пока отложу это в сторону.)

Знакомство с вашими данными помогает быстрее выявлять и решать проблемы. Например, потратив несколько часов на маркировку данных изображения, вы получите некоторую эвристику, пусть и краткую, относительно того, что содержится в ваших изображениях, какие форматы или размеры они принимают и так далее. Если ваш процесс обучения модели выдает ошибку из ниоткуда, ваше знание входных данных, вероятно, будет полезно для выдвижения гипотезы о том, что произошло.

Знакомство с вашими данными также является отличным способом сделать ваш процесс гибким и целенаправленным. Нет необходимости полностью использовать AutoML, пробуя каждый гиперпараметр или предварительно обученную модель под солнцем, если у вас есть представление о границах или краях вашего пространства данных.

Возможно, наиболее важно то, что широкая доступность некоторых довольно отличных отправных точек в виде предварительно обученных моделей (например, в области компьютерного зрения и НЛП) означает, что вам на самом деле не нужно много данных для начала работы. Создание начального набора аннотаций позволяет вам приступить к работе по созданию базового плана и итерации вашего решения.

Когда и где делать маркировку

Маркировка — это не статическая практика, а скорее то, чем вы, вероятно, захотите заниматься постоянно. Есть несколько мест, где имеет смысл планировать маркировку:

  • Сначала: вы можете начать работу без каких-либо данных или с огромным количеством данных, но не имея четкого представления о том, какие их части полезны для решения вашей конкретной проблемы. Нередко имеется много данных, но не хватает точных меток для этих данных. Таким образом, вы можете начать и получить большую выгоду от начальной загрузки вашей модели: маркируйте некоторые данные, обучайте свою модель, используйте свою модель, чтобы предлагать метки, что позволит вам ускорить маркировку, повторяя итерацию таким образом. Маркировка данных на ранних этапах процесса также помогает прояснить и сжать ваши конкретные правила и стандарты. Например, вы можете понять, что вам нужны определенные определения для определенных понятий, чтобы ваши усилия по маркировке были согласованными в вашей команде.
  • По мере поступления новых данных. Скорее всего, новые данные будут поступать и дальше, и вам может потребоваться регулярно проверять процесс маркировки, чтобы ознакомиться с этими новыми данными. (Возможно, вы также захотите иметь какую-то автоматизацию для обнаружения данных или отклонений концепции, но для определенных видов неструктурированных данных вы, вероятно, никогда не сможете полностью отказаться от мгновенной обратной связи фактического контакта с необработанными данными.)
  • Выборки, сгенерированные для вывода. Ваша модель будет делать прогнозы на основе передаваемых данных реального мира. Если вы сохраните и пометите эти данные, вы получите ценный набор данных, которые можно использовать для сравнения. ваши метки с тем, что модель была предсказана, еще один возможный способ отметить дрейф различных видов. Затем эти данные можно (при условии конфиденциальности/согласия пользователя) использовать для переобучения или тонкой настройки вашей модели.
  • Другие специальные вмешательства. Возможно, у вас будет какой-то процесс для выявления неправильных ярлыков или для поиска примеров, которые ваша модель считает действительно сложными для правильного прогнозирования. Для них и для областей, где у вас есть явный дисбаланс классов, вы можете сделать специальные аннотации, чтобы дополнить исходные материалы, из которых ваша модель должна учиться.

Обещание ИИ, ориентированного на данные

Сдвиг и переориентация на качество данных — это скорее коррекция курса, чем фундаментальное переосмысление того, как обучаются модели машинного обучения. Тем не менее, это смещает акцент и распределение времени на разные части конвейера обучения машинному обучению.

Вы, вероятно, никогда не пожалеете о том, что потратили время на свои данные, подвергшиеся всем крошечным особенностям и крайним случаям. В конце концов, ваша модель сама проходит через некоторую версию этого, поскольку она работает, чтобы подогнать функцию к конкретному варианту использования, который вы настроили. Знание того, как включить маркировку данных как часть вашего подхода, ориентированного на данные, принесет дивиденды в виде увеличения скорости, с которой вы можете выполнять итерации, и повышения степени, в которой вы чувствуете интуицию в отношении исходных материалов вашей проблемы.

В ZenML мы начинаем работу по включению инструментов маркировки данных и аннотаций в нашу структуру, чтобы вы могли получить все преимущества, описанные выше, как основную часть вашего рабочего процесса. Если у вас есть вариант использования, который требует аннотирования данных в ваших пайплайнах, сообщите нам, что вы строите, и есть инструменты, без которых вы не можете жить! Самый простой способ связаться с нами — через наше сообщество Slack, к которому вы можете присоединиться здесь.

[ Обложка Алина Грубняк на Unsplash]

Первоначально опубликовано на https://blog.zenml.io 2 июня 2022 г.