Недавно у меня была прекрасная возможность представить нашу статью Актуальность нечеловеческих ошибок в машинном обучении на первом международном семинаре по оценке ИИ вне метрик (EBeM), который состоялся в Вене 24 июля 2022 года во время IJCAI-ECAI. 2022». Цель этого поста — предложить краткое и неофициальное резюме нашей статьи и немного расширить презентацию, которую я сделал во время семинара. Но обо всем по порядку: я хочу поблагодарить рецензентов семинара за их полезные и обогащающие комментарии, а также поблагодарить организаторов за прекрасное первое издание, которое, я надеюсь, проживет долгую жизнь!

Чаще всего отзывы, которые я получал от рецензентов, на самом деле были не в форме комментариев, а скорее в чем-то похожем на чувство, которое вы испытываете, когда фильм заканчивается, не дав вам ожидаемого объяснения:

Но я не понимаю, какие новые показатели вы предлагаете?

Ну, новых метрик в этой работе нет. Нет даже старых показателей. Ни углубленного анализа некоторых результатов. Просто идея использовать другой подход, чем обычно, при оценке модели машинного обучения. Вот почему мне нравится думать об этой короткой статье как о предварительной работе, представляющей и обосновывающей некоторые концепции, чтобы мы могли внести свой вклад в децентрализацию обычного подхода, который доминирует в процедурах обучения и оценки моделей машинного обучения.

Расскажите мне о контексте; децентрализация процедур обучения и оценки моделей машинного обучения?

Не секрет, что текущая практика оценки моделей машинного обучения фокусируется в основном на точности, полученной во время проверки модели, тенденция, унаследованная от того факта, что обучение этих моделей направлено на максимальное повышение их точности. И не поймите меня неправильно, конечно, точность важна, но нынешнее понимание точности прочно основано на количественном подходе, который уделяет мало внимания многим другим факторам, которые могут иметь большое значение. Привычка индуцировать эту машиноцентричность приводит к тому, что решения, предлагаемые машиной, игнорируют некоторые важные аспекты человеческого восприятия не только при разработке решения проблемы, но и при предоставлении этого решения. Людям важно тщательно изучить потенциальные ошибки, связанные с предлагаемым решением. Точно так же мы требуем, чтобы, если предлагаемое решение содержит ошибки, которые могут повлечь за собой риски, о них сообщалось. Давайте посмотрим, почему.

Проблема с лифтом

Представьте, что вы входите в небоскреб. Вам нужно добраться до очень высокого этажа, поэтому вы направляетесь к лифту и находите табличку с надписью:

Я почти уверен, что большинство из вас не стали бы пользоваться лифтом, не так ли? Однако, если знак сказал:

Тогда вы, вероятно, воспользуетесь лифтом. Но разница только в объяснении ошибки. С его помощью вы сможете оценить возможные последствия и действовать соответственно.

В соответствии с этим примером в настоящее время модели машинного обучения обучаются и оцениваются в первую очередь на основе успехов, а не неудач, и, поскольку мы обычно держим неудачи в фоновом режиме, мы не принимаем во внимание потенциальный вред ошибок модели.
И именно это и является нашей целью в этой статье: мы предлагаем приложить усилия для выявления и дифференциации этих ошибок и организации их иерархически, чтобы мы могли использовать эту информацию для обеспечения более значимой и надежной оценки этих моделей.

Хорошо. Но что вы подразумеваете под «иерархической организацией ошибок»?

Таксономия ошибок

Вернемся к нашему лифту. Давайте представим, что мы углубляемся в детали отказов нашего лифта и обнаруживаем, что 85% ошибок состоит в том, что лифт везет вас не на тот этаж, 12% ошибок состоит в том, что лифт останавливается, а остальные 3% ошибок состоят из катастрофического события падения лифта.

Теперь мы все еще можем рассматривать этот сценарий в количественном отношении: Хорошо, мы должны работать над минимизацией ошибок "неправильный этаж", потому что эти исправления будут иметь наибольшее влияние с точки зрения повышения общей точности лифта.

Но поскольку эта иерархическая структура ошибок (которую мы будем называть таксономией ошибок) построена на основе риска, связанного с различными ошибками, мы можем применить качественный подход и заявить: Мы безусловно, следует работать над устранением ошибки «падение лифта», даже если это означает снижение общей точности.

Но теперь вы можете подумать (и вы будете правы), что эта идея определения таксономии ошибок очень сильно зависит от рассматриваемого нами варианта использования, и что сложность различения и категоризации ошибок значительно возрастает, когда пример перестает быть шаблонным. пример игрушки.

Этот подход был бы неэффективным и даже неосуществимым, если бы мы хотели (и действительно хотели) применить его в общем виде.

И именно поэтому в этой статье мы определяем понятие ошибок, не связанных с человеческим фактором.

Нечеловеческие ошибки

Теперь представьте, что нам дали бинарную задачу. Местом решения этой задачи является белый лист бумаги. Нам также дается Основная Истина, которая решает эту проблему, и она появляется в виде зеленой сферы на листе, так что истинные положительные ответы находятся внутри зеленой сферы, а истинные отрицательные ответы — снаружи.

Теперь рассмотрим двух агентов, пытающихся решить задачу. Человек и машина. Человек отображается в виде синего эллипса, а машина — в виде красного треугольника. Точки внутри синего эллипса — это точки, предсказанные человеком как положительные, а точки внутри красного треугольника — это точки, предсказанные машиной как положительные. Та же логика применима к точкам за пределами фигур.

Несложно вывести, какие общие правильные предсказания между человеком и машиной:

Но что нас действительно интересует, так это ошибки. Давайте посмотрим на различные типы ошибок, которые мы можем обнаружить, если различать ошибки, совершаемые каждым агентом по отдельности, и ошибки, совершаемые обоими агентами вместе.

Разумно думать, что те ошибки, которые человек не совершал бы, те, которые нетипичны для человека, могут иметь опасные последствия, потому что они неожиданны. Нам трудно объяснить и контролировать эти ошибки, потому что мы, как люди, не совершали бы их.

Итак, мы возьмем эти ошибки, наиболее далекие от ошибок, которые может совершить человек, и назовем их ошибками, не связанными с человеческим фактором.

Все идет нормально. У нас есть эта таксономия ошибок как потенциальный инструмент для работы над этой децентрализацией обычной процедуры оценки модели, и у нас есть эта категория ошибок, нечеловеческие ошибки, которые могут помочь нам построить таксономию в более общем виде. Но пока все это выглядит довольно абстрактно, так что давайте немного приблизимся к реальности.

Доказательство концепции

В нашей работе мы выполнили задачу мелкозернистой классификации изображений с Oxford-IIIT Pets Dataset, содержащей изображения разных пород кошек и собак. Мы проверили лучшие модели, решающие эту задачу, и выбрали модель Big Transfer (в частности, сеть BiT-M), которая достигает более 94% точности для указанного набора данных.

Учитывая эту проблему, совершенно несложно представить или выдвинуть гипотезу о нечеловеческих ошибках. Мы могли понять, что две собаки (или две кошки) из одной категории пород были перепутаны, и мы могли даже понять, что были перепутаны две собаки (или две кошки) из разных категорий. Но было бы по-человечески нелогично принимать собаку за кошку или кошку за собаку. Так что это будут ошибки, которые мы будем рассматривать как нечеловеческие ошибки: принятие кошки за собаку или наоборот.

Для этой задачи мы предлагаем простое дерево классификации как таксономию ошибки. На следующем рисунке показана часть этой таксономии (полная таксономия включает 25 пород собак и 12 пород кошек). Красным мы видим одну из нечеловеческих ошибок, допущенных моделью BiT-M.

Мы пересмотрели модель, приняв эту точку зрения на ошибки, и обнаружили, что более 3% ошибок были нечеловеческими ошибками, а это означает, что из 241 общей ошибки 8 были нечеловеческими ошибками. Здесь мы можем увидеть некоторые из них:

В приведенной ниже матрице путаницы мы можем видеть все нечеловеческие ошибки в виде светлых квадратов в верхнем правом и нижнем левом прямоугольниках:

Резюме и выводы

Как я уже упоминал в начале этого поста, это прежде всего концептуальный документ. Наша основная цель состоит в том, чтобы представить две концепции: таксономию ошибок и нечеловеческие ошибки. Мы считаем, что таксономия ошибок может функционировать как потенциальный инструмент для более прозрачной и информативной оценки моделей машинного обучения, обеспечивая подход, который не фокусируется только на максимальной точности. Дифференциация категории нечеловеческих ошибок может помочь построить эту таксономию в общем виде, предоставляя некоторые подсказки относительно того, какие ошибки могут быть самыми рискованными, с некоторой независимостью от варианта использования.

Вы можете найти простой блокнот, содержащий все вычисления, сделанные для этой работы, в этом репозитории Github.