Ожидается, что модели машинного обучения будут не только делать точные прогнозы, но и надежно оценивать их достоверность в этих прогнозах. Способность модели классификации давать точные оценки вероятности известна как калибровка. В этом посте я углублюсь в концепцию калибровки в машинном обучении, обсужу ее важность, изучу методы ее достижения и решу общие проблемы, связанные с ней.

Помимо точности модели

Предсказанные вероятности, полученные с помощью хорошо откалиброванной модели, действительно отражают вероятность конкретного исхода. Например, среди всех случаев, когда модель предсказывает результат с вероятностью 80%, этот результат действительно должен происходить примерно в 80% случаев. Калибровка выходит за рамки традиционных мер точности, чтобы гарантировать, что уверенность модели в ее прогнозах соответствует ее фактической производительности.

Калибровка имеет решающее значение во многих областях, где принятие решений зависит не только от прогнозов модели, но и от ее предполагаемых неопределенностей. Например, в здравоохранении хорошо откалиброванная модель может помочь врачам более точно оценить риск заболевания. В финансах калиброванные модели могут обеспечить более надежную оценку инвестиционного риска.

Многие модели машинного обучения, особенно сложные, такие как нейронные сети, не откалиброваны по своей сути. Однако несколько методов могут улучшить калибровку модели. К ним относятся масштабирование Платта и изотоническая регрессия, которые корректируют выходные данные модели, чтобы они лучше соответствовали истинным частотам результатов.

Масштабирование Platt

При масштабировании Платта исходные выходные оценки модели преобразуются в вероятности путем подгонки модели логистической регрессии к выходным оценкам. Модель логистической регрессии, используемая в масштабировании Платта, математически выражается как P (y = 1 | x) = 1 / (1 + exp (Af (x) + B)), где f (x) представляет выходной балл модели классификации, y=1 обозначает положительный класс, а A и B — параметры, полученные в результате подгонки модели логистической регрессии к набору данных проверки.

Хотя масштабирование Платта оказалось надежным и широко применимым методом, оно не лишено своих допущений и ограничений. Основное допущение в Platt Scaling состоит в том, что необработанные выходные баллы из модели классификации линейно связаны с логарифмическими шансами положительного класса. Если это предположение не выполняется, масштабирование Platt может не дать ожидаемых результатов. В таких случаях могут применяться альтернативные методы, такие как изотоническая регрессия, поскольку они не накладывают конкретной формы на взаимосвязь между выходными оценками и вероятностями.

Изотоническая регрессия

Калибровка также может быть выполнена путем подбора изотонической (монотонно возрастающей) функции к выходным баллам. Изотоническая регрессия не предполагает конкретной параметрической формы функции отображения от необработанных оценок модели до вероятностей. Вместо этого он изучает ступенчатую постоянную неубывающую функцию, которая лучше всего соответствует данным в соответствии с заданной метрикой ошибки.

Изотоническая регрессия оказывается полезной в тех случаях, когда существует сложная нелинейная зависимость между необработанными выходными оценками и вероятностями. Это гибкий метод, который изучает неубывающую функцию, которая может фиксировать более сложные закономерности. Однако изотоническая регрессия может перекрыть данные калибровки, если она слишком гибкая. Это особенно верно, когда количество калибровочных данных ограничено. Кроме того, изотоническая регрессия дает вероятности только в диапазоне, наблюдаемом в обучающих данных. Это означает, что если тестовые данные имеют оценки, выходящие за пределы диапазона обучающих данных, изотоническая регрессия не может предоставить откалиброванные вероятности для этих оценок.

Модели, обеспечивающие оценки вероятности

В то время как многие модели машинного обучения выдают исходную оценку, которую необходимо преобразовать или откалибровать, чтобы обеспечить значимую оценку вероятности, есть несколько моделей, которые по своей сути могут выводить псевдовероятности.

Логистическая регрессия, например, является распространенной моделью бинарной классификации, которая генерирует оценки вероятности. Он моделирует логарифмические шансы вероятности положительного класса как линейную комбинацию входных признаков. Затем к этим логарифмическим шансам применяется сигмоидальная функция для вывода вероятности от 0 до 1. Наивные байесовские классификаторы вычисляют вероятности непосредственно из распределения обучающих данных. Деревья решений могут оценивать вероятность принадлежности экземпляра к определенному классу на основе доли экземпляров этого класса в листовом узле, куда попадает экземпляр. Случайные леса, в более широком смысле, также могут выводить вероятности путем усреднения оценок вероятности отдельных деревьев. Точно так же модели повышения градиента, особенно такие реализации, как LightGBM и XGBoost, способны создавать вероятности, используя функцию логистической связи для преобразования взвешенной суммы прогнозов всех деревьев.

Однако важно отметить, что калибровка этих готовых показателей вероятности может зависеть от различных факторов, таких как конфигурация модели, репрезентативность обучающих данных и сложность задачи. Поэтому всегда рекомендуется оценивать калибровку выходных вероятностей модели и, при необходимости, применять дополнительный метод калибровки, такой как шкала Платта или изотоническая регрессия, для их дальнейшего улучшения.

Распространенные проблемы при калибровке модели

Калибровка модели является неотъемлемой частью рабочих процессов машинного обучения, особенно когда важны интерпретируемость и уверенность в прогнозах. Тем не менее, этот процесс не обходится без проблем, начиная от предположений, лежащих в основе методов калибровки, и заканчивая проблемами переобучения и необходимости использования отдельных калибровочных наборов.

Во-первых, каждый метод калибровки основан на определенных допущениях. Например, масштабирование Платта предполагает логистическую взаимосвязь между необработанными выходными данными модели и логарифмическими шансами положительного класса. Это может не всегда быть верным в зависимости от характера модели или данных. С другой стороны, изотоническая регрессия предполагает монотонную связь между необработанным выходом и вероятностями, но делает меньше предположений о форме калибровочной функции. Эти допущения, если они нарушаются, могут привести к неточной калибровке.

Во-вторых, методы калибровки могут переподходить, особенно когда калибровочный набор невелик. Подгонка при калибровке подразумевает, что модель фиксирует шум или специфические особенности калибровочных данных, а не общую картину. Следовательно, откалиброванные вероятности могут плохо обобщаться на невидимые данные. Эта проблема особенно распространена при использовании изотонической регрессии из-за ее гибкости по сравнению с масштабированием Платта.

В-третьих, для калибровки модели требуется отдельный набор данных, который не использовался на этапе обучения. Когда доступность данных ограничена, найти отдельный калибровочный набор может быть проблемой. Использование одного и того же набора данных как для обучения, так и для калибровки может привести к чрезмерно оптимистичным оценкам вероятности и потенциальному сценарию переобучения.

В-четвертых, хотя до сих пор основное внимание уделялось бинарной классификации, калибровка вероятностей для многоклассовых параметров добавляет уровень сложности. Масштабирование Платта и изотоническая регрессия могут быть распространены на сценарии с несколькими классами, но эти расширения часто увеличивают вычислительные затраты и сложность.

Наконец, калибровка, хотя и полезна для интерпретируемости и надежности оценок вероятности, не увеличивает дискриминационную способность модели. Модель с неудовлетворительной производительностью не улучшится за счет калибровки — она просто обеспечит более надежные оценки вероятности. Кроме того, калибровка не устраняет врожденные погрешности или недостатки исходной модели.

Давайте философствовать

Калибровка модели выходит за рамки простых технических деталей — она влечет за собой философские размышления о неотъемлемых сложностях и неопределенностях интерпретации моделей и принятия решений. Возникают фундаментальные вопросы относительно интерпретации показателей вероятности, полученных с помощью моделей, например, рассматриваем ли мы их как долгосрочные частоты в повторных испытаниях (частотная интерпретация) или как степени уверенности или достоверности (байесовская интерпретация). Доверие к предсказаниям модели — еще один интересный момент, поскольку модели, выдающие хорошо откалиброванные вероятности, могут восприниматься как более надежные. Однако важно различать, что хорошо откалиброванная модель не обязательно означает «правильность», а скорее отражает соответствие между достоверностью модели и ее фактической точностью. Также возникают интересные компромиссы между точностью прогнозирования и калибровкой. Например, очень сложная модель может давать превосходную точность, но плохую калибровку, в то время как более простая модель может давать меньшую точность, но хорошо откалиброванные вероятности, что вызывает вопросы о том, каким качествам отдавать предпочтение в данном контексте. Наконец, в игру вступают этические соображения, особенно в приложениях с высокими ставками, таких как медицина или финансы, где неверно откалиброванные вероятности могут привести к серьезным последствиям.

Заключение

В заключение, калибровка является важным аспектом машинного обучения, который обеспечивает не только точность прогнозов, но и надежность оценочной достоверности. По мере того, как машинное обучение и ИИ все чаще используются для принятия важных решений, спрос на хорошо откалиброванные модели будет продолжать расти. Таким образом, понимание и улучшение калибровки моделей является важным направлением для текущих исследований и практики машинного обучения.