Эта статья изначально была размещена на нашем сайте компании как три статьи. Платформа для разработчиков Lakera позволяет командам машинного обучения создавать отказоустойчивые модели компьютерного зрения.

Все модели машинного обучения, развернутые в рабочей среде, должны быть проверены на несколько основных свойств. В предыдущих блогах мы много писали о тестировании моделей машинного обучения на предмет их надежности (читайте наш блог о нечетком тестировании и метаморфических отношениях), тестировании на ошибки данных и методах традиционной разработки программного обеспечения, таких как регрессионное тестирование. . В этом посте мы рассмотрим предвзятость модели, а также предвзятость данных, а также то, что можно сделать, чтобы их предотвратить.

1. Репрезентативность данных.

Данные — это отражение существующего в мире неравенстваBeena Ammanath, AI for Good Keynote. Хотя это может быть правдой, у разработчиков есть большой потенциал для сдерживания смещения модели и смещения данных в их системах компьютерного зрения.

Проверка того, присутствует ли предвзятость в системе компьютерного зрения, является ключом к пониманию того, как она будет работать в работе. Смещение проявляется по-разному, от сбора данных и аннотаций до функций, которые модель использует для прогнозирования.

Давайте начнем с рассмотрения репрезентативности данных и тестов моделей, которые помогут вам выявить надоедливые предубеждения на ранних этапах процесса разработки.

Сбор данных.

Смещение может впервые появиться при сборе и аннотировании данных. Данные, которые вы используете для построения и оценки модели компьютерного зрения, должны отражать то, для чего вы собираетесь их использовать: это называется репрезентативностью данных.

Радиологический диагностический инструмент, который будет развернут на юге Франции, должен быть оценен на пациентах из местных демографических групп. Диагностический инструмент также следует оценивать на изображениях, полученных с помощью машин, находящихся в целевых больницах. Прошлые исследования были сосредоточены на рекомендациях, которым можно следовать при сборе и аннотировании данных для обучения и тестирования, чтобы уменьшить такую ​​предвзятость.

Как узнать, есть ли у вас данные, которые имеют значение?

После того, как вы собрали данные, важно подтвердить, что они репрезентативны для целевой группы населения. Хотя установить это только на основе данных изображения сложно, метаданные изображения могут оказаться очень полезными. В предыдущих сообщениях мы представили понятие метаданных и то, почему они содержат ключевую семантическую информацию для оценки моделей машинного обучения, в частности, в компьютерном зрении. Если доступны пол и возраст пациентов, а также модель машины, которая использовалась для сбора изображений, мы можем создать модульные тесты для проверки наличия данных для каждого соответствующего среза в наборах данных. Таким образом, мы можем создать комплексный набор тестов, который позволит нам убедиться, что данные в целом являются репрезентативными, и определить области, в которых они не являются репрезентативными, таким образом эффективно управляя процессом сбора данных.

Не оставляйте аутсайдеров позади.

Наконец, репрезентативность в литературе относится к совпадению с целевым населением: например, если 99,9% целевого населения находится в возрасте от 20 до 70 лет, набор данных для оценки должен это отражать. Однако это игнорирует важность хвостов дистрибутива и является ключевым отличием создания прототипов от готовых к производству систем. Действительно, модель машинного обучения может обеспечить превосходную точность в наборе данных оценки, содержащем данные в диапазоне от 20 до 70 лет, даже если она плохо работает с 80-летними. Если продукт предназначен для работы с пациентами всех возрастов, крайне важно явно протестировать его на срезах, принадлежащих хвосту распределения, даже если они редко встречаются на практике.

Как показано на рисунке ниже, агрегированные показатели оценки, такие как точность, достоверность и полнота, могут вводить в заблуждение: важно явно измерять производительность для всех соответствующих срезов.

В заключение выясните, кто ваши целевые группы, большие или малые, и что у вас достаточно данных для всех. Вы можете использовать метаданные в качестве инструмента для поиска важных групп.

2. Быстрое обучение.

Лауреат Нобелевской премии по экономике Даниэль Канеман однажды заметил:

«По самой своей природе эвристические ярлыки будут создавать предубеждения, и это верно как для людей, так и для искусственного интеллекта, но их эвристика ИИ не обязательно человеческая». Это, безусловно, тот случай, когда мы говорим о «быстром обучении».

Несмотря на тщательное тестирование данных, предвзятость модели может проявляться более непосредственно в том, что система компьютерного зрения изучает. Эта проблема модели компьютерного зрения, использующей неправильные визуальные функции для прогнозирования, называется быстрым обучением.

Поиск в неправильных местах.

Черный ящик многих моделей компьютерного зрения затрудняет поиск таких сокращений, и в результате обученные модели, как правило, плохо обобщаются на неизвестные среды. В статье Распознавание в Terra Incognita исследователи Калифорнийского технологического института демонстрируют модель классификации, которая хорошо справляется с поиском коров в оценочном наборе, но терпит неудачу, когда их просят классифицировать коров на пляже или в других необычных условиях. Для моделей компьютерного зрения визуальные элементы, указывающие на траву и горы, могут способствовать обнаружению коровы на изображении, в то время как элементы пляжа или помещения могут сильно препятствовать этому. Ожидается, что в модели используются такие функции, но их влияние следует понять перед развертыванием таких моделей в рабочей среде. Компания, производящая детектор коров, не зная об этом факте, разочарует некоторых прибрежных клиентов, создав риск для репутации.

Как обнаружить ярлыки.

В этой статье авторы показывают, что эталонные тесты обнаружения лиц достигают производительности, превышающей случайную, даже после удаления волос, лица и одежды субъектов. Это указывает на то, что для предсказания используются нерелевантные фоновые признаки. «Другое исследование определяет первоначальный список таких предубеждений, которые могут возникнуть на практике для медицинских приложений. Подобные эксперименты по абляции, в которых маскируются части изображения, важные для предсказания, могут быть полезны для выявления таких сокращений. Метаданные также могут быть мощным инструментом для обнаружения и проверки некоторых из этих ярлыков. Статистическая зависимость между измерениями метаданных и производительностью модели может проявляться в отношении ярлыков: если демографические данные пациента сильно коррелируют с производительностью, то необходимы дальнейшие исследования!

Подводя итог, краткое обучение происходит, когда ваша система компьютерного зрения смотрит на неправильные визуальные функции, чтобы делать прогнозы. Такие ярлыки можно обнаружить только по данным изображения, например, путем измерения разумной производительности, несмотря на маскирование областей изображения, которые важны для прогнозирования. Их также можно обнаружить, обратившись к вашим метаданным: если есть сильная связь между параметрами метаданных и производительностью модели, то стоит присмотреться. Наличие практик в процессе оценки модели машинного обучения для обнаружения этих ярлыков является ключом к высокопроизводительной модели.

3. Дрейф и мониторинг.

Если последние три года нас чему-то и научили, так это тому, что мир вокруг нас может принимать неожиданные повороты. То же самое может быть верно для ваших моделей компьютерного зрения.

Непредвиденные данные могут быть представлены модели компьютерного зрения во время работы, несмотря на тщательное смягчение наборов данных и ярлыков. Одним из таких явлений является дрейф данных.

Больница может заменить свой рентгеновский аппарат и продолжать использовать ту же модель компьютерного зрения для диагностики, даже если система не была обучена таким входным данным. Точно так же автономный автомобиль, созданный исключительно для европейских улиц, известных своими изгибами и поворотами, может работать не так, как ожидалось, если его использовать в американском городе.

Потерпите неудачу, но потерпите неудачу изящно.

Модели машинного обучения, как правило, молча терпят неудачу и независимо делают прогнозы, хотя и ошибочные. Можно смягчить операционную предвзятость, добавив правильные стратегии смягчения: более широкая система машинного обучения должна определять в процессе работы, выглядит ли изображение «подозрительным» или «неизвестным», и корректно отказывать (например, попросив врача рассмотреть его поближе).

Обнаружение вне распределения.

Проблема обнаружения таких проблемных входных данных называется обнаружением вне распределения. Сложная задача заключается в сравнении распределения многомерных объектов. Если вам интересно узнать об этом больше, исследования в этой области обширны [1], [2], [3]. Обратите внимание, что обнаружение выхода за пределы распределения является ключевой частью многих систем обучения. Например, Generative Adversarial Networks обучает сеть-дискриминатор, единственной задачей которой является определение того, является ли сгенерированное изображение подозрительным при сравнении с эталонным набором данных. Системы в производстве должны быть снабжены детектором вне распределения, чтобы обнаруживать проблемные образцы на лету. Если обнаружено проблемное изображение, система должна корректно выйти из строя, что снижает риск скрытых сбоев вашей системы компьютерного зрения.

Очень важно помнить о смещении данных, когда ваша система находится в эксплуатации. Поддержание актуальности данных и модели — это лишь часть жизненного цикла любого ИИ. Тем временем убедитесь, что существуют стратегии смягчения последствий, чтобы эти подозрительные результаты выявлялись и анализировались людьми в цикле.

  • [1] «Обнаружение глубоких аномалий с выявлением выбросов», Хендрикс, 2019 г.
  • [2] «FRODO: Бесплатная отбраковка образцов, вышедших из-под контроля: приложение к рентгенологическому анализу грудной клетки», Çallı et al.¸ 2019 г.
  • [3] «Эффективное обнаружение вне распределения в цифровой патологии с использованием многоголовочных сверточных нейронных сетей», Линманс, 2020 г.