Искусственный интеллект (ИИ) и машинное обучение могут произвести революцию в деловом мире, позволяя принимать решения на основе данных, автоматизировать процессы и улучшать качество обслуживания клиентов.

Однако серьезной проблемой для бизнеса является работа с большими объемами неразмеченных данных. Немаркированные данные относятся к данным, которые не были аннотированы или помечены такой информацией, как категории или атрибуты. Без маркировки алгоритмы машинного обучения не могут учиться на данных, а потенциальные идеи и преимущества ИИ не могут быть полностью реализованы.

Вот некоторые из предприятий, которые имеют доступ к огромному количеству неструктурированных данных:

  • Социальные сети. Платформы социальных сетей генерируют огромное количество неструктурированных данных в виде текста, изображений и видео. намерение…
  • Здравоохранение. Медицинские данные часто неструктурированы и включают записи пациентов, данные изображений и электронные медицинские карты. Чтобы повысить точность диагностики и обеспечить возможность принятия решений на основе данных, эти данные необходимо аннотировать такими метками, как диагноз, лечение и тяжесть заболевания…
  • Юридическая отрасль. Юридические документы, такие как контракты, патенты и стенограммы судебных заседаний, часто неструктурированы и требуют аннотаций с такими ярлыками, как тип документа, юридический вопрос и результат…

Это некоторые отрасли, которые часто имеют большой объем немаркированных данных, которые требуют аннотации, прежде чем их можно будет эффективно использовать для приложений ИИ и машинного обучения. Однако процесс аннотирования вручную может быть очень медленным и дорогим. Стоимость ручной аннотации зависит от различных факторов, таких как тип требуемой аннотации, количество необходимых аннотаций и сложность аннотируемых данных. Например, Hendrycks et al. (2021) сообщили о затратах более 2 миллионов долларов на аннотацию набора данных Atticus для понимания контрактов (CUAD), состоящего примерно из 500 контрактов. .

Чтобы решить эту проблему, компании обращаются к таким методам, как активное обучение.

Что такое активное обучение?

Активное обучение — это подход к машинному обучению, который включает в себя выбор наиболее информативных примеров из большого набора данных для маркировки и использования для моделей обучения. С появлением (немаркированных) больших данных и больших языковых моделей активное обучение становится все более важным, поскольку оно позволяет предприятиям эффективно и действенно маркировать большие наборы данных, сводя к минимуму затраты и максимизируя точность.

В социальных сетях, например, текстовые документы могут быть аннотированы аннотациями распознавания именованных сущностей или анализа тональности. В сфере здравоохранения медицинские изображения можно аннотировать ограничивающими прямоугольниками, сегментацией или аннотациями ориентиров. В юридической отрасли активное обучение можно использовать для аннотирования юридических документов для анализа контрактов и электронного обнаружения. Кроме того, активное обучение можно использовать для маркировки и аннотирования данных изображений в таких отраслях, как автономные транспортные средства, робототехника и наблюдение.

В целом, активное обучение — это мощный инструмент, который может помочь компаниям преодолеть проблемы, связанные с работой с неструктурированными и неразмеченными данными. Поскольку объем неструктурированных и немаркированных данных продолжает расти, активное обучение становится все более важным инструментом для предприятий, стремящихся извлечь ценную информацию и получить конкурентное преимущество.

Как это работает?

Активное обучение включает в себя итеративный выбор наиболее информативных примеров из неразмеченного набора данных для комментирования экспертом-человеком.

Этот процесс может помочь оптимизировать использование помеченных данных, сократить усилия человека по маркировке, повысить производительность модели, обеспечить гибкость процесса маркировки и сделать возможным обучение на немаркированных данных.

Шаги для использования активного обучения на немаркированном наборе данных состоят из:

  1. Выбор подвыборки данных для аннотирования экспертом
  2. Аннотирование выбранной выборки данных экспертом вручную;
  3. Добавление размеченных экспертом данных в размеченный обучающий набор;
  4. Обучение модели по всем отмеченным точкам данных;
  5. Делать прогнозы по оставшимся неразмеченным данным с использованием ранее обученной модели; Модель используется для оценки и ранжирования оставшихся немаркированных точек данных на основе их информативности.
  6. Выбор наиболее информативных неразмеченных точек данных для аннотирования экспертом; Эти точки данных выбираются на основе стратегии запроса, которая максимизирует ожидаемое снижение ошибки прогнозирования.
  7. Повторение с шага 2 по шаг 6 до тех пор, пока не будет достигнут заданный критерий остановки; Критерий остановки может быть основан на различных факторах, таких как фиксированное количество итераций, производительность модели на проверочном наборе или пороговое значение улучшения, достигнутого в производительности модели.

Путем итеративного выбора наиболее информативных немаркированных точек данных для маркировки и включения их в обучающий набор активное обучение направлено на достижение высокой производительности модели с меньшим количеством размеченных данных, чем это требуется при традиционных подходах к обучению с учителем.