В контексте создания систем искусственного интеллекта, таких как машинное обучение, часто возникает вопрос «Как получить хорошие данные для обучения алгоритмов? Качество данных — это вызов. Как нам это преодолеть?»

И количество данных, и качество данных одинаково важны для систем искусственного интеллекта. В то время как такие варианты, как предварительно упакованные данные, публичный краудсорсинг и частные краудсорсинги, считаются способными решить проблему количества данных, качество данных продолжает оставаться проблемой и, вероятно, будет становиться все более важным.

Почему важно качество данных

Такие системы, как машинное обучение и глубокое обучение, используют очень большие наборы данных как для обучения, так и для тестирования. Использование данных низкого качества или нерелевантных данных для обучения вашей системы машинного обучения окажет значительное влияние на поведение системы. Если ваши обучающие данные — «мусор», результаты модели не будут отличаться.

Сегодня специалисты по данным тратят значительное количество времени на очистку и подготовку данных. Даже при таких усилиях очистка не обнаруживает и не исправляет все ошибки. Качество данных имеет решающее значение для организаций, иначе вы не сможете принимать правильные решения без него. При хорошем качестве данных вы можете быть уверены, что алгоритмы могут обеспечить большую точность, а также смягчить любую потенциальную погрешность в вашем проекте ИИ.

Маркировка данных — ключевой компонент качества данных

Данные обучения могут поступать во многих форматах, таких как электронные таблицы, PDF, HTML или JSON, и могут включать текст, изображения, видео и аудио в зависимости от потребностей вашего приложения машинного обучения. Эти данные должны быть помечены, что означает отметить набор данных для обучения ключевыми функциями, которые помогут обучить ваш алгоритм. Маркировка данных также называется маркировкой данных, аннотацией, обработкой данных и т. д.

То, как маркировщики данных оценивают или присваивают вес каждой метке, влияет на точность вашей модели. Иногда вам, возможно, придется найти специалистов по маркировке данных с конкретными возможностями предметной области для ваших нужд, чтобы иметь общих специалистов по маркировке данных, которые могут работать с вашими клиентами над получением опыта предметной области для присвоения оценки или веса. Как видите, качество маркировки данных напрямую связано с производительностью вашей модели машинного обучения.

Путь к хорошим данным

3 ключевых элемента могут помочь вам создать хорошие данные, а именно: Люди, Процесс и Инструменты.

Люди

Качество данных начинается с реальных людей, которые выполняют работу. В зависимости от опыта, который они имеют, и обучения, которое они получают, качество данных может иметь значительное влияние. Опытные старшие сотрудники с прошлым опытом работы с большими данными для целей машинного обучения могут внести разнообразие в форме регулярного обучения для других членов команды.

Процесс

Надлежащие практики и процессы QA (обеспечение качества) могут существенно повлиять на качество данных. К наиболее часто используемым методам обеспечения точности и согласованности данных относятся золотые наборы, консенсус и аудит.

Золотые наборы или эталоны измеряют точность путем сравнения аннотаций с «золотым набором» или проверенным примером.

Консенсус, или перекрытие, измеряет последовательность и согласие между группой в отношении идентифицированных данных.

Аудит измеряет как точность, так и последовательность, когда эксперт проверяет этикетки либо путем выборочной проверки, либо путем проверки их всех.

Инструменты

Внедрение правильных и эффективных инструментов может улучшить результаты, увеличить скорость и помочь повысить производительность команды.

Ссылки:

https://www.cloudfactory.com/training-data-guide

https://insidebigdata.com/2019/11/17/how-to-ensure-data-quality-for-ai/

Источник изображения:

https://www.cloudfactory.com/data-labeling-guide

О Зучи

Zuci революционизирует способ разработки программных платформ с помощью запатентованных моделей искусственного интеллекта и глубокого обучения. Узнайте больше о Zuci на www.zucisystems.com

об авторе

Васудеван Сваминатан — президент и главный консультант Zuci. Васу является доверенным советником и деловым партнером клиентов, способным понять их видение программного обеспечения. Загляните к нему в Васудеван Сваминатан