Вы слышали о беспилотном автомобиле Uber, который сбил женщину в Аризоне? В другом случае решение по распознаванию лиц представило невиновного цветного мужчину как преступника в Нью-Джерси, а инструмент подбора персонала Amazon на основе искусственного интеллекта показал предвзятое отношение к кандидатам-женщинам.

Понятно, что искусственный интеллект ошибается. Значительные, даже судьбоносные ошибки. Итак, как мы можем по-прежнему пользоваться преимуществами ИИ, устраняя ошибки такого типа? Один из вариантов — позволить экспертам обучать, оценивать и контролировать бизнес-решения ИИ после развертывания. Эта концепция называется машинным обучением человека в цикле (HITL). Gartner прогнозирует, что в некоторых отраслях решения HITL AI будут составлять около 30% всех предложений по автоматизации к 2025 году.

Мы поговорили с нашим экспертом по искусственному интеллекту Максимом Бочком, чтобы понять, как люди вписываются в эту петлю, какую пользу они приносят и как организовать этот процесс.

Человек в петле определение и преимущества

Человеку свойственно ошибаться, чтобы действительно все испортить, нужен компьютер.

- Пауль Эльрих, немецкий врач, лауреат Нобелевской премии.

Сейчас цитата Эльриха как никогда актуальна. Благодаря искусственному интеллекту, обрабатывающему критически важные приложения, вероятность ошибки становится все меньше. И машины не идеальны. Они строят свое понимание задачи на основе полученных обучающих данных и могут делать ошибочные предположения.

И это подводит нас к терминологии машинного обучения «человек в цикле».

Человек в цикле означает интеграцию сотрудников-людей в конвейер машинного обучения, чтобы они могли непрерывно обучать и проверять модели. Сюда входят все люди, работающие с моделями, и данные их обучения.

Как человек в цикле повышает ценность ваших алгоритмов машинного обучения

  • Поддерживает высокий уровень точности. Это особенно важно для доменов, которые не терпят ошибок. Например, при производстве критического оборудования для самолета нам нужна автоматизация и скорость, но мы не можем ставить под угрозу безопасность. HITL полезен и в менее важных приложениях. Например, крупные консалтинговые компании, которые в значительной степени полагаются на ИИ для соблюдения нормативных документов, вовлекают человека в цикл машинного обучения для проверки своих алгоритмов обработки естественного языка.
  • Устраняет предвзятость. Модели машинного обучения могут стать необъективными во время обучения. Более того, они могут приобрести предвзятость после развертывания, так как продолжают учиться. Сотрудники-люди могут обнаружить и устранить это явление на ранних стадиях, соответствующим образом скорректировав алгоритм.
  • Обеспечивает прозрачность. Алгоритмы машинного обучения оценивают тысячи или даже миллионы параметров для принятия окончательного решения, и часто это невозможно объяснить. В HITL есть человек, который понимает, как работают алгоритмы, и может обосновать принимаемые ими решения. Это называется объяснимый ИИ. Например, когда человек подает заявку на получение ссуды и получает отказ, он может попросить кредитного специалиста объяснить причину отказа и то, что заявитель может сделать, чтобы увеличить свои шансы в следующий раз.
  • Открывает возможности трудоустройства. Мы часто слышим об искусственном интеллекте, который крадет рабочие места людей. Машинное обучение с участием человека является примером того, как технология может создавать новые вакансии. Достаточно взглянуть на рынок индийских аннотаторов данных.

Роль людей в конвейере ИИ

Максим объясняет, как люди могут быть частью конвейера ИИ, чтобы повысить его способность делать прогнозы. Модели машинного обучения работают в режиме контролируемого или неконтролируемого обучения. В случае обучения с учителем люди могут выполнять следующие задачи:

  • Маркировка и аннотация. Сотрудник-человек помечает обучающий набор данных. В зависимости от требуемой квалификации, это может быть эксперт в предметной области или любой сотрудник с соответствующей подготовкой.
  • Реконструкция модели. При необходимости инженеры и программисты машинного обучения могут внести коррективы в алгоритм, чтобы убедиться, что он может извлечь максимальную пользу из предоставленного набора данных.
  • Обучение и переподготовка. Сотрудники загружают модель аннотированными данными, просматривают выходные данные, вносят исправления, добавляют дополнительные данные, если это возможно, и повторно обучают модель.
  • Наблюдение за производительностью модели после развертывания. Жизненный цикл обучения человека в цикле машинного обучения не останавливается после развертывания решения ИИ на территории клиента. Инженеры машинного обучения продолжают следить за его производительностью с согласия клиента и при необходимости вносят коррективы в модель путем выборочной проверки ее выходных данных. Случаи, полученные в результате выборочной проверки, дополнят исходный набор данных для обучения, чтобы повысить производительность алгоритма.

В неконтролируемом машинном обучении алгоритмы принимают немаркированные данные в качестве входных данных и самостоятельно находят структуру. В этом случае люди не аннотируют набор данных и не сильно вмешиваются в начальное обучение. Но они могут значительно обогатить модель, выполнив шаг 4 выше.

Когда человек в курсе, машинное обучение становится абсолютной необходимостью

Максим считает, что подход «человек в цикле» полезен для большинства случаев использования машинного обучения. Решения ИИ впечатляют тем, что делают оптимальные прогнозы при обучении на больших обширных наборах данных, в то время как люди могут распознавать закономерности из ограниченного количества выборок данных низкого качества. Объединение обеих возможностей вместе может создать мощную систему. Несмотря на то, что в некоторых приложениях модели ML могут работать с ограниченным вмешательством человека, есть случаи, когда полноценный человек в петлевой системе является обязательным:

  • Когда любая ошибка алгоритма может стоить очень дорого, например, в медицинской диагностике.
  • Когда данных, необходимых для правильного обучения алгоритма, недостаточно. Чем больше обучающих данных, тем выше производительность модели. С помощью постпроизводственного мониторинга модели вы можете дополнить обучающие данные соответствующими образцами, предоставляя модели больше примеров для обучения.
  • В случае одноразового обучения, когда алгоритм обучается на сотнях или даже тысячах выборок для классификации некоторых объектов. А потом добавляется еще один класс, и алгоритм должен научиться его идентифицировать всего по нескольким обучающим выборкам.
  • В сильно регулируемых отраслях, где важно объяснить, как алгоритмы пришли к своим выводам. Например, когда врачи используют ИИ, чтобы предложить персонализированное лечение рака, им необходимо обосновать этот план лечения для пациента.

С точки зрения типа данных, которые обрабатывают алгоритмы ML, HITL AI будет иметь важное значение для приложений компьютерного зрения и обработки естественного языка (NLP), особенно когда речь идет об анализе настроений текста, который может содержать сарказм. HITL менее важен для табличных данных и анализа временных рядов.

Советы по улучшению искусственного интеллекта с помощью человека в петле

Максим предлагает следующие советы о том, как успешно реализовать подход «человек в цикле» в машинном обучении:

  • При мониторинге и анализе производительности алгоритма после развертывания, независимо от того, насколько хорош человек в системе цикла, люди-участники не смогут обращать внимание на каждый ввод, который обрабатывает алгоритм, и каждый вывод, который он генерирует. Выбирайте дела с умом. Используйте выборочную проверку, чтобы выбрать случаи, достойные вашего внимания. Максим предлагает следующие подходы к умному подбору кейсов:
  • Основано на уровнях достоверности. Например, алгоритм должен классифицировать каждое входное изображение как кошку или собаку. Изображения, которые получают уровень достоверности около 48/52 или что-то подобное, сбивают с толку алгоритмы, и их необходимо правильно пометить и использовать для повторного обучения модели.
  • Случайная проверка «тривиальных» случаев. Предположим, что только один из десяти случаев содержит ценную информацию, когда речь идет о производительности алгоритма. Примером такого случая является то, что модель слишком уверена в неверном прогнозе. Вы обязательно должны рассмотреть этот случай, но вам также нужно случайным образом выбрать один из оставшихся девяти случаев, чтобы убедиться, что алгоритм не становится слишком самоуверенным из-за своих неверных прогнозов или допускает предвзятость.
  • При анализе кейсов, выбранных вами на предыдущем шаге, не ограничивайтесь конечным результатом. Вместо того, чтобы смотреть на вывод окончательного набора нейронов в нейронных сетях, проверьте предыдущий слой, как на изображении ниже, и проанализируйте распределение расстояний между неправильным прогнозом и ближайшими правильными прогнозами, которые делает алгоритм.

  • Поощряйте конечных пользователей алгоритма оставлять отзывы о его работе. Создайте формы обратной связи и сделайте их доступными для всех, чтобы пользователи могли сообщать о любых проблемах, которые у них могут возникнуть.
  • Продолжайте итеративно дополнять набор обучающих данных, используя точки данных из предыдущих шагов. Таким образом, вы будете уверены, что ваш алгоритм останется актуальным, даже если в работе клиента произойдут какие-либо изменения.

Готовые инструменты искусственного интеллекта с поддержкой HITL

Есть несколько готовых инструментов машинного обучения, которые позволяют маркировать обучающие наборы данных и проверять результат. Однако вы не сможете реализовать приведенные выше советы с помощью этих стандартизированных инструментов. Вот несколько примеров инструментов «человек в цикле»:

Облако Google HITL

Это решение предлагает рабочий процесс и пользовательский интерфейс (UI), которые люди могут использовать для маркировки, просмотра и редактирования данных, извлеченных из документов. Компания-клиент может либо использовать своих сотрудников в качестве маркировщиков, либо нанять сотрудников Google HITL для выполнения этой задачи.

Инструмент имеет определенные функции пользовательского интерфейса для оптимизации рабочего процесса маркировщиков и фильтрации выходных данных на основе порога достоверности. Это также позволяет компаниям управлять пулом своих этикетировщиков.

Amazon Augmented AI (Amazon A2I)

Этот инструмент искусственного интеллекта «человек в петле» позволяет людям просматривать малодостоверные и случайные прогнозы машинного обучения. В отличие от Google Cloud HITL, который работает только с текстом, Amazon A2I может дополнять Amazon Recognition для извлечения изображений и проверки результатов. Это также может помочь при просмотре табличных данных.

Если клиента не устраивает предоставленный рабочий процесс A2I, он может разработать свой собственный подход с помощью SageMaker или аналогичного инструмента.

ДатаРобот Скромный ИИ

Humble AI позволяет людям указывать набор правил, которые модели машинного обучения должны применять при прогнозировании. Каждое правило включает условие и соответствующее действие. На данный момент есть три действия:

  • Без операции, когда люди просто контролируют соответствующее состояние, не вмешиваясь
  • Переопределение прогноза, когда люди могут заменить выходные данные модели другим значением.
  • Ошибка возврата, просто отбрасывание прогноза

Итак, является ли машинное обучение с участием человека лучшим подходом для вас?

Использование искусственного интеллекта с участием человека повышает точность, прозрачность и качество прогнозов. Это также увеличивает затраты и время, необходимое для выполнения задачи из-за вмешательства человека, создавая возможности для трудоустройства, что является положительным побочным эффектом.

Несмотря на очевидные преимущества искусственного интеллекта HITL, существуют приложения, в которых предпочтительным подходом является вмешательство человека вне цикла из-за рисков, связанных с определенными действиями. Подумайте о разработке и развертывании автономного оружия.

Если вы чувствуете, что ваши алгоритмы машинного обучения могут использовать человека в цикле, но вы не знаете, как сбалансировать эксплуатационные расходы и желаемую точность и объяснимость, обратитесь к консультантам по машинному обучению. Они будут работать с вами, чтобы найти подходящий вариант. Если машинное обучение человека в цикле не является оптимальным решением в вашем случае, есть другие приемы машинного обучения, которые могут помочь вам преодолеть проблему нехватки обучающих данных:

  • Перенос обучения, когда вы настраиваете предварительно обученные модели с помощью собственных данных.
  • Обучение под наблюдением, когда вы используете большой немаркированный набор данных вместе с небольшим количеством помеченных образцов.
  • Обучение с самоконтролем, когда вы маскируете случайную часть обучающей выборки в каждой партии, и алгоритм пытается ее предсказать.

Вы планируете повысить точность и объяснимость модели машинного обучения? "Связаться"! Эксперты ITRex по искусственному интеллекту изучат вашу ситуацию и разработают оптимальный подход с участием человека в цикле для удовлетворения ваших потребностей.

Первоначально опубликовано на https://itrexgroup.com 17 июля 2022 г.