Производительность модели машинного обучения зависит от качества обучающих данных. Согласованность и правильность помеченных данных в машинном обучении используются для оценки качества. Консенсус по бенчмаркам, обзор, альфа-тест Кронбаха — вот некоторые из стандартных процедур для расчета качества обучающих данных.

Одним из наиболее важных аспектов вашей работы является определение того, какое сочетание этих процессов обеспечения качества лучше всего подходит для вашего проекта.

Как вы определяете точность маркировки данных

Различные работы требуют различных мер по обеспечению качества данных. Многие специалисты по данным и исследователи сходятся во мнении относительно нескольких характеристик высококачественных обучающих наборов данных, которые они используют в инициативах по работе с большими данными. Сам набор данных важен в первую очередь. Способность алгоритма предвидеть будущие сопоставимые точки и шаблоны определяется балансом и разнообразием точек данных внутри него.

Во-вторых, точность, с которой метки и категории помещаются в каждую точку данных, обычно определяет качество наборов данных для обучения модели. Но дело не только в качестве разметки данных; это также о том, насколько это последовательно. В процессе обеспечения качества оцениваются как правильность, так и непротиворечивость данных, причем различные этапы могут выполняться вручную или автоматически.

Методы измерения качества данных

Процесс маркировки данных является неполным без обеспечения качества. Метки данных должны отражать абсолютную степень точности, быть уникальными, независимыми и полезными для правильной работы модели машинного обучения. Это верно для всех приложений машинного обучения, от разработки моделей компьютерного зрения до обработки естественного языка.

Ниже приведен список шагов, связанных с маркировкой данных:

Сбор данных. Получаются необработанные данные, которые будут использоваться для обучения модели. Эта информация очищается и обрабатывается для создания базы данных, которую можно напрямую поместить в модель.

Тегирование данных. Чтобы пометить данные и связать их с соответствующим контекстом, который компьютер может использовать в качестве достоверной информации, используется множество методологий маркировки данных.

Гарантия качества. Точность тегов для конкретной точки данных, а также точность точек координат для аннотаций ограничительной рамки и ключевых точек обычно используются для измерения качества аннотаций данных. Для оценки средней правильности этих аннотаций очень полезны процедуры обеспечения качества, такие как алгоритм консенсуса, альфа-тест Кронбаха, тесты и обзоры.

Алгоритм консенсуса

Это метод установления надежности данных путем согласования нескольких систем или лиц в отношении одной точки данных. Консенсуса можно достичь, назначив определенное количество рецензентов для каждой точки данных (что более характерно для данных из открытых источников) или используя полностью автоматизированный процесс.

Альфа-версия Кронбаха

Это тест на надежность или насколько тесно связана группа вещей. Это показатель надежности весов. Наличие «высокого» значения альфа не означает, что метрика одномерна. Дополнительные анализы могут быть предприняты, если, помимо оценки внутренней согласованности, вы хотите показать, что шкала является одномерной.

Эталонные показатели

Контрольные показатели, также известные как «золотые наборы», используются для оценки того, насколько точно групповые или индивидуальные аннотации соответствуют утвержденному стандарту, разработанному экспертами в области знаний или специалистами по данным. Бенчмарки — наиболее экономичное решение для обеспечения качества, поскольку они требуют наименьшего количества дублирующих друг друга усилий. Контрольные показатели могут быть полезны, поскольку вы продолжаете оценивать качество своих результатов на протяжении всего проекта. Их также можно использовать для проверки кандидатов на аннотации в качестве тестовых наборов данных.

Просмотреть

Еще одним способом оценки качества данных является проведение обзора. Эта стратегия основана на проверке правильности меток экспертом в предметной области. Оценка часто выполняется путем визуального осмотра небольшого количества этикеток, однако некоторые проекты проходят их все.

Другие важные методы, используемые Cogito

Самопроверка

Аннотаторы должны оценить свою работу на этом этапе. Аннотаторы обычно испытывают много времени и нагрузки, что может привести к ошибкам в их работе. Аннотаторы должны замедлиться и внимательно посмотреть на свою работу во время проверки качества, которая начинается с этапа самопроверки.

Перепроверить

Возможно, вы слышали фразу «предвзятость» в отношении науки о данных в целом и аннотации данных в частности. Предвзятость аннотации — это состояние, при котором аннотаторы склонны маркировать данные по-своему, что может привести к предвзятым выводам о данных. Благодаря включению перекрестной проверки в процесс аннотирования вся работа рассматривается в новом свете, что позволяет аннотаторам выявлять недостатки и неточности в работе своих коллег.

Проверка менеджером или экспертами по контролю качества

Менеджер проекта, как правило, отвечает за ежедневное наблюдение за проектом. Менеджер будет отвечать за получение образцов данных от клиентов, работу над необходимыми метриками и обучение аннотаторов. После завершения перекрестной проверки менеджер может случайным образом проверить результат, чтобы определить, соответствует ли он потребностям клиентов.

Заключение

Поиск правильных методов и платформ для маркировки данных обучения — это первый шаг к получению высококачественных данных обучения. Понимание ценности высококачественных обучающих данных и расстановка приоритетов помогут вам добиться успеха с вашими моделями.

Если производительность вашей команды снижается из-за нехватки высококачественных размеченных данных, Cogito Tech LLC может помочь с недорогими данными или текстовыми надписями, а также аннотациями данных для различные отрасли, в том числе здравоохранение, электронная коммерция, автомобилестроение, сельское хозяйство и другие отрасли, использующие машинное обучение для построения моделей на основе ИИ. Нашим ключевым преимуществом является высокое качество наших данных, которое принесло нам золотой статус в оценке качества.

(Этот блог изначально был опубликован по адресу: https://www.cogitotech.com/blog/a-guide-to-data-labeling-quality-assurance-in-machine-learning).