Для разработки моделей машинного обучения (ML), а также для их мониторинга в процессе производства оценка неопределенности прогнозов является критически важным активом. Это помогает выявлять подозрительные образцы во время обучения модели в дополнение к обнаружению образцов вне распределения во время вывода.

В этом сообщении блога мы представляем структуру конформного прогнозирования. Он предоставляет специалистам по машинному обучению простую и не зависящую от модели меру неопределенности для каждого прогноза выборки с областями прогнозов.

Мы проверяем эту меру неопределенности, вычисляя изменение частоты ошибок для выборок с большими областями прогноза по сравнению со всеми выборками, сравнивая ее на наборе наборов данных. И последнее, но не менее важное: в этом посте есть фрагменты кода для реализации и использования конформных прогнозов.

Почему важна неопределенность

Эпистемологически само понятие неопределенности лежит в основе статистики и машинного обучения, а его интерпретация лежит в основе разрыва между частотами и байесовцами.

С практической точки зрения, для каждого процесса принятия решений, основанного на алгоритмах машинного обучения, крайне важно поддерживать прогноз с определенной степенью уверенности. Действительно, поскольку метрики обеспечивают глобальный уровень уверенности для алгоритмов машинного обучения, естественно искать аналогичные локальные уровни уверенности на уровне выборки.

Байесовские модели, естественно, дают такие локальные уровни уверенности с апостериорными вероятностями, и можно моделировать как алеаторические, так и эпистемологические неопределенности (см. Эту основополагающую статью по байесовскому глубокому обучению от Кендалла и Гала).

Но до тех пор, пока байесовский механизм не захватит мир машинного обучения, как мы можем повысить уровень уверенности на местном уровне?

Большинство методов неопределенности являются специфичными для модели по замыслу (деревья Мондриана, деревья квантильной регрессии для алгоритмов неглубокого обучения) или включаются во время начального обучения модели через дополнительную ветвь или конкретную потерю ([DeVries] и [Corbière et al. . ]).

Руководствуясь принципом бритвы Оккама, мы ищем простые методы оценки неопределенности для выборочных прогнозов. Стремясь к универсальности, мы также требуем, чтобы методы были общими, т. Е. Не зависели от базовой модели машинного обучения, и предлагались без дополнительных затрат, то есть не требовали любое дополнительное обучение.

Мы покажем, что структура конформных предсказаний является хорошим кандидатом для выполнения этих требований. Но сначала давайте посмотрим, почему канонические методы калибровки не работают.

Почему калибровки недостаточно

Поскольку выходные баллы классификаторов находятся в диапазоне от 0 до 1, они немедленно интерпретируются как вероятности. Но из каких событий? Чтобы выполнить базовое частотное считывание этих оценок, образцы с прогнозируемой вероятностью p должны иметь наблюдаемую частоту принадлежности к положительному классу, которая должна быть точно p.

Более формально свойство канонической калибровки можно определить как:

Калибровка - это операция постобработки предсказанных вероятностей, чтобы попытаться удовлетворить это условие. Двумя наиболее популярными методами калибровки являются масштабирование Платта и изотоническая калибровка. Мы ссылаемся на обширные обзоры и сравнительный анализ [Guo et al.] И [« Snoek ] по калибровке нейронных сетей и производительности различных методов калибровки для более глубокого обсуждения.

Для задач классификации калибровка вероятностей часто является требованием для моделей, используемых в процессах принятия решений (утверждение ссуды, обнаружение мошенничества и т. Д.).

Если калибровка не зависит от классификатора, к которому она применяется, это недостаточно детальное понятие неопределенности. Во-первых, калибровка не дает точно откалиброванных вероятностей, а дает только лучше откалиброванные вероятности. Во-вторых, это все еще точечная оценка и, следовательно, не несет ожидаемых атрибутов оценки неопределенности.

Конформные прогнозы: от точечной оценки к множественной оценке

Это интуитивное представление о том, что должно повлечь за собой количественная оценка неопределенности, материализуется с помощью интервалов вокруг прогнозов, будь то доверительные интервалы для частотников или вероятные интервалы для байесовских.

Конформные предсказания [Vovk] - это классический частотный подход к проверке гипотез, который обеспечивает оценку ошибок для каждого экземпляра без указания априорных вероятностей. Конформные прогнозы создают границы ошибок вокруг прогнозов. Для регрессоров эти области представляют собой интервалы вокруг прогноза. Для классификаторов конформные предсказания - это предсказания с множеством значений в наборе мощности классов.

Основная интуиция заключается в том, что входные данные, менее похожие на данные обучения, должны приводить к менее определенным оценкам: это фиксируется функциями оценки несоответствий. Для задач классификации стандартные меры несоответствия заимствуются из таких показателей неопределенности, как наименьший показатель достоверности (1 - прогнозируемая вероятность) или наименьший запас. Другой мерой несоответствия является отношение расстояния до ближайших соседей с тем же классом к расстоянию до ближайшего соседа с разными метками.

Пример. Конформный прогноз для набора данных радужной оболочки с классами {setosa, versicolour, virginica} может быть любым из подмножество классов: empty, {setosa}, {versicolour}, {virginica}, {setosa, versicolour}, {setosa, virginica}, {versicolour, virginica} и {setosa, versicolour, virginica}.

Это расширение точечной оценки до оценки множества естественным образом несет в себе понятие неопределенности. Выборка с прогнозированием нескольких классов означает, что классификатор не может различить эти классы. На крайних концах спектра конформное предсказание выборки может быть пустым (класс не назначен) или полным (все классы назначены).

Давайте введем обозначения и сформулируем основную теорему конформных предсказаний.

Пример. В задаче бинарной классификации набора электрических данных распределение значений p для оценки несоответствия с наименьшей степенью достоверности показано на графике ниже.

Достоверное и уверенное измерение неопределенности образца

Два понятия помогают количественно оценить неопределенность конформного предсказания на уровне выборки.

  • Достоверность измеряет, насколько вероятно, что образец будет взят из набора поездов, это определяется минимальным уровнем значимости, при котором конформная область пуста.
  • Уверенность оценивает, насколько уверена модель в том, что прогноз является одноэлементным.

Они вычисляются следующим образом:

Пример. Для примера MNIST ниже у нас есть два ненулевых p-значения для классов 8 и 9: p_8 = 0,077, p_9 = 0,15. Этот образец имеет высокую конформную достоверность 0,93, но довольно низкую достоверность 0,15.

Интерпретация основной теоремы о конформных предсказаниях

Интересно, что конформные предсказания работают в противоположном направлении от большинства методов неопределенности. Сначала определяется уровень приемлемой неопределенности, и соответственно делаются прогнозы.

Обратите внимание, что это утверждение без распространения и что действительность покрытия набора прогнозов не зависит от выбора функции несоответствия. Но плохой выбор - как случайная функция - приведет к большим наборам прогнозов.

Параметр альфа - это ошибка допуска: чем он меньше, тем меньший допуск мы допускаем, и набор прогнозов имеет больше шансов содержать истинную метку.

Эту теорему не следует интерпретировать как утверждение, что вероятность ошибочного предсказания выборки равна альфа. В конечном итоге частота ошибок будет альфа, где ошибка возникает, когда правильная метка отсутствует в прогнозируемом наборе меток.

Для двоичных классификаций без нулевых конформных предсказаний нет ошибок в предсказаниях полного набора, так что оставшиеся ошибки относятся к одноэлементному предсказанию: вероятность того, что эти предсказания будут неверными, намного выше, чем альфа.

Преобразовательные конформные предикторы были первоначальным подходом, но, поскольку он требует переобучения модели для каждой новой выборки, были разработаны индуктивные конформные предикторы. Они требуют, чтобы модель обучалась только один раз, а конформные оценки вычислялись на основе отложенных данных.

Вот как работает индуктивный конформный предсказатель для оценки несоответствия с наименьшей степенью достоверности:

Вот пример (быстрой) реализации вышеизложенного:

За пределами предельных распределений для конформных предикторов?

Гарантированная частота ошибок теоремы выше безусловных распределений. Однако для несбалансированных наборов данных класс меньшинства часто представляет собой более сложную картину для улавливания и приводит к большей частоте ошибок, чем для класса большинства. Это мотивировало введение ярлыка условные конформные предикторы, для которых p-значения несоответствия являются классово-условными:

У условных меток конформных предикторов есть свойство аналогового покрытия, обусловленное классами.

Вот пример кода, который демонстрирует конформное предсказание по метке с наименьшей степенью достоверности несоответствия в наборе данных цифр.

Пример. Рассмотрим стандартный набор данных цифр; после стандартного изменения масштаба мы подбираем логистическую регрессию с параметрами по умолчанию. Ниже приведены образцы набора данных цифр с несколькими конформными предсказаниями.

Калибровка конформных предсказателей

Эту теорему можно рассматривать как свойство калибровки конформных предикторов. Но это требует осторожной интерпретации, поскольку нет эквивалентного понятия калиброванных вероятностей или оценок для конформных предикторов. Перефразируя теорему, мы получаем определение идеально откалиброванного конформного предиктора:

На практике часто наблюдается, что конформные предикторы хорошо откалиброваны. Для сглаженных p-значений конформные предикторы всегда идеально откалиброваны (см. «Алгоритм в случайном мире», теорема 8.2).

Вот конформная калибровочная кривая для предыдущего конформного предсказателя по набору данных цифр.

Что является хорошей мерой неопределенности?

Насколько нам известно, не существует универсального показателя, который измерял бы качество методов оценки неопределенности, помимо показателей калибровки (таких как оценка Бриера или ECE). Один из способов измерить это - провести исследование устойчивости, такое как this.

Другой способ обойти это - поиск косвенных данных, которые могут выделить то, что мы ожидаем от метода неопределенности. Вот почему мы используем анализ ошибок как предлог. Более конкретно, образцы с высокой неопределенностью должны быть более подвержены ошибкам, чем образцы с низкой неопределенностью.

Размер областей прогнозирования, называемый эффективностью, является хорошим показателем информативности. Считается, что выборочный прогноз имеет низкую неопределенность, если он имеет низкую эффективность. Для образцов с эффективностью выше единицы прогноз считается с высокой неопределенностью.

Чтобы проверить это, мы можем посмотреть, как меняются метрики оценки для разных значений эффективности, вычисляя стратифицированные метрики по подмножествам данных с заданной эффективностью. Мы инкапсулируем это с помощью коэффициента конформных ошибок, определяемого как следующий коэффициент байесовского обновления:

Для выборок с большой областью предсказания мы ожидаем, что это отношение будет большим, а такие же малые отношения будут показателями правильно классифицированных выборок.

Давайте посмотрим на это в нашем предыдущем примере с набором данных радужной оболочки глаза. Частота ошибок базового классификатора составляет 0,04, в то время как частота ошибок для выборок с эффективностью выше 1 составляет 0,28, следовательно, коэффициент обновления равен 7. Это означает, что у нас в 7 раз больше шансов допустить ошибку в этом подмножестве выборок, чем в полном. набор данных!

Бенчмаркинг

Похоже, что коэффициент байесовского обновления является хорошим показателем для обнаружения ошибок в этой задаче классификации. Чтобы сделать этот прокси более надежным, мы изучаем его поведение в более крупном масштабе.

Этот эксперимент расширен до 22 наборов данных двоичной классификации из коллекции cc18 и повторяется по 10 случайным начальным значениям. Для различных уровней значимости (0,01, 0,05, 0,1, 0,2) мы строим график отношения конформной ошибки к эффективности в левой части. Чтобы учесть смещение мощности, в правой части показан соответствующий размер каждой страты эффективности. Кроме того, мы наносим константу коэффициента ошибок конформной формы на 1 (эффективность не дает дополнительной информации) в качестве базовой линии.

Представленные результаты представляют собой средние значения для случайных семян вместе со стандартными отклонениями.

Коэффициент конформных ошибок, по-видимому, является надежным индикатором частоты ошибок, поскольку он обобщается по наборам данных сравнительного анализа. Страты с нулевой эффективностью имеют коэффициент конформных ошибок строго больше 1 (в среднем 4,6), хотя они часто представляют собой небольшую часть всех данных (в среднем 10%, если они не пусты). Если страты полной эффективности (2) показывают менее впечатляющие отношения (в среднем 2,4), они могут составлять большую часть данных (в среднем 44%, если они не пусты).

Выводы из конформных прогнозов

Мы представили структуру конформных прогнозов и увидели, как она представляет собой интересный выбор меры неопределенности. Конформные прогнозы являются общими, поскольку их можно применить к любой модели машинного обучения. Вычисление конформного предсказания - это незначительные накладные расходы во время вывода со стандартной мерой несоответствия. Предоставляя локальные регионы прогнозирования, они предлагают оценки неопределенности на уровне выборки.

Конформные прогнозы также могут давать оценки глобальной неопределенности. С наименьшей степенью уверенности в качестве оценки несоответствия в двоичной настройке, рассмотрение интервала прогнозируемых вероятностей для выборок с полным набором прогнозов дает нам простое правило глобальной неопределенности. Фактически это можно использовать непосредственно в качестве показателя неопределенности: все выборки с прогнозируемой вероятностью в этом диапазоне должны быть тщательно изучены.

Мотивы, лежащие в основе конформных предсказаний, прослеживаются в других областях работ по неопределенности и устойчивости ... даже когда не делается явного упоминания конформного предсказания, как в NeurIPS 2018 Доверять или не доверять классификатору (где предложенная так называемая оценка доверия это как раз оценка несоответствия!).

Этимологический бонус

Конформное прилагательное немного загадочно, и его мотивация не ясна. Это не имеет ничего общего с конформными отображениями в геометрии. Благодаря StackOverflow сам Владимир Вовк объясняет этимологию своей теории: