Непрерывное добавление аннотаций для улучшения качества данных

Допустим, стремясь улучшить свою модель, вы искали оптимальные гиперпараметры, упорядочили и даже протестировали несколько архитектур, но производительность модели все еще неудовлетворительна.

Поскольку решения для машинного обучения носят каскадный характер, качество обучающих данных влияет на производительность модели. Как я могу проверить ошибки в обучающем наборе данных, помеченном экспертами? У меня даже нет знаний предметной области, а это в два раза дороже времени? Почему я должен нанять новый набор аннотаторов для проверки начальной моей аннотации? Что ж, вам не обязательно этого делать. Вы можете использовать алгоритм, если у вас есть дополнительные вычисления, если вариант использования стоит дополнительных вычислений. Этот алгоритм является уверенным обучением (реализация чистой лабораторией). Возьмите листок из книги OpenAI и очистите свой первоначальный набор данных, чтобы получить высококачественный набор данных для обучения.

Кроме того, процесс непрерывного выявления проблем с метками для улучшения качества модели называется непрерывным аннотированием.

Применяемый современный метод называется доверительным обучением, который представляет собой алгоритм, изучающий совместное распределение с использованием исходно размеченных данных и прогнозируемых вероятностей вне выборки (вероятностей, полученных путем обучения модели с использованием перекрестной проверки).

Несмотря на интенсивные вычисления, этот алгоритм эффективно выявляет проблемы с априорно помеченными данными, возвращая индексы возможных поврежденных меток. В дополнение к обучению человека в цикле для исправления этих подозрительных аннотаций, с помощью этого метода можно улучшить производительность модели. Можно использовать такие инструменты, как Labelstudio для аннотаций, и cleanlab для выявления проблем с качеством.