Новый график, показывающий точность модели

Как лучше всего сообщить о точности прогнозной модели?

Это вопрос, к которому я часто возвращался, потратив последние 15 лет на построение прогнозных моделей для здравоохранения. Измерение точности прогнозной модели несложно, поскольку большинство структур моделирования упрощают вычисление множества статистических данных о точности. Проблема в том, что статистика сама по себе не сообщает о точности модели таким образом, чтобы помочь заинтересованным сторонам понять, как ее эффективно использовать.

Проблема проявляется в таких вопросах, как «Хорошо ли 0,82?» и «Насколько лучше 0,85, чем 0,82, или они довольно близки?» Когда врач, менеджер или бизнес-пользователь задает эти вопросы, они пытаются понять точность модели в терминах, которые имеют отношение к решениям, которые им необходимо принять. Дело не в том, что они не понимают, что означает статистика, а в том, что статистики точности недостаточно, чтобы ответить на такие вопросы, как «Сколько денег сэкономит нам эта модель по сравнению с нашим текущим подходом?» и «Следует ли нам больше инвестировать в повышение точности или эта модель достаточно хороша?»

Мы обнаружили, что два простых графика очень эффективно демонстрируют точность модели в медицинских учреждениях. Первый график, кривая захвата результатов, похож на традиционную кривую рабочих характеристик приемника (ROC), но имеет несколько простых, но важных отличий, которые делают его очень эффективным при передаче информации о точности модели заинтересованным сторонам. График, который мы используем в платформе ClosedLoop, - это график возврата инвестиций (ROI). В этом посте я опишу первый из этих графиков.

Кривая захвата результатов

Первый график, который мы используем, - это кривая захвата результатов. Это очень полезно в любой ситуации, когда вы используете прогнозы, чтобы выбрать группу людей, на которую нужно действовать. Например, поставщики медицинских услуг используют прогнозы риска повторной госпитализации, чтобы нацелить пациентов на посещения на дому после операции, а страховщики используют прогнозы оттока участников для целевых участников для программ стимулирования повторного зачисления. В обоих случаях прогностическая модель идентифицирует людей, у которых с высокой вероятностью будет какой-либо негативный результат, а люди с самым высоким риском будут нацелены на какое-то вмешательство.

Для таких ситуаций наиболее подходящим показателем точности является то, насколько хороша модель для целенаправленного вмешательства. В примере с повторной госпитализацией, если у вас есть возможность воздействовать на 5% пациентов, то лучший способ сравнить точность двух предикторов - это посмотреть, какой из них определяет больше повторных госпитализаций в лучших 5% населения. В большинстве случаев этот порог в 5% не фиксируется. Потенциально вы можете вмешаться только 3%, а может быть, и 10% населения. Кривая захвата результатов показывает точность для всех различных уровней порога. График для модели реадмиссии показан ниже:

Мы рисуем этот график, используя набор исторических тестов (не тот, который использовался для построения модели), где мы можем сравнить прогнозы модели с тем, что произошло на самом деле. Горизонтальная ось представляет различные проценты отобранного населения, а вертикальная ось показывает процент от общего числа повторных разрешений, произошедших в этой группе. Желтая линия на графике проходит через точку 10 на горизонтальной оси и 22 на вертикальной оси. Это означает, что на 10% пациентов с наивысшим прогнозируемым риском приходилось 22% всех повторных госпитализаций.

Самый важный компромисс, который необходимо сделать при использовании прогнозной модели для целевого вмешательства, - это количество вмешательств, которые необходимо выполнить. Проведение большего количества вмешательств требует больше ресурсов, но позволяет избежать более негативных результатов. Кривая захвата результатов напрямую демонстрирует этот компромисс. Вместо того, чтобы представлять точность модели как абстрактную статистику, она представлена ​​в контексте ключевого решения, которое необходимо принять в отношении реализации модели.

Проведение нескольких линий на графике позволяет нам сравнивать точность различных моделей. Более точные модели будут отражать более высокий процент результатов (он будет выше на графике) для той же доли населения. На этом графике желтой линией показаны прогнозы модели машинного обучения, а черной линией - индекс LACE, основанный на правилах подход к риску реадмиссии. Модель машинного обучения превосходит индекс LACE для любого уровня вмешательства. Для 10% населения индекс LACE учитывает 16% повторной госпитализации, а модель машинного обучения - 22% - улучшение на 30%.

Захват результатов против ROC

Кривые ROC традиционно используются для демонстрации точности модели. Кривая ROC ниже сравнивает те же две модели реадмиссии, что и кривая захвата результатов выше.

Вы можете видеть, что графики имеют много общего. В обоих случаях желтая линия находится над черной, и общие формы аналогичны. Фактически, вертикальные оси на обоих графиках одинаковы. Определение истинной положительной скорости (TPR), используемое в кривой ROC, идентично определению результатов для двоичных прогнозов. Мы предпочитаем термин «сбор результатов», потому что он более понятен специалистам, не занимающимся статистикой, и легко распространяется на непрерывные прогнозы, которые мы рассмотрим ниже. На обоих графиках случайные прогнозы представлены в виде диагональной линии от нижнего левого угла до верхнего правого угла графика.

Критическая разница между графиками - горизонтальная ось. На кривой ROC по горизонтальной оси отложена частота ложноположительных результатов (FPR), а на кривой «Получение результатов» - процент от популяции. Это важно, потому что кривая захвата результатов показывает, какой уровень точности может быть достигнут путем вмешательства в различные пропорции населения. Определение количества вмешательств, которые необходимо выполнить, и, следовательно, ресурсов, необходимых для выполнения вмешательства, является ключевым компромиссом, который необходимо сделать при реализации модели.

Изменение горизонтальной оси изменяет значение показателя «Площадь под кривой» (AUC). Для кривой ROC идеальный предсказатель будет иметь AUC, равную 1,0. У него будет точка, в которой TPR будет 1,0, а FPR 0,0. Кривая захвата результатов не обладает этим свойством, поскольку для определения всех положительных результатов всегда необходимо включать некоторый ненулевой процент населения. Можно вычислить AUC для кривой захвата результатов, но мы предпочитаем по-прежнему использовать ROC AUC, когда требуется единичная статистика точности, потому что многие люди знакомы с ней, и она имеет приятное свойство 1,0 - идеальный предсказатель.

Непрерывные результаты

В отличие от кривой ROC, кривую захвата результатов можно нарисовать для моделей, прогнозирующих непрерывный результат. Опять же, этот график наиболее актуален, если предполагаемое использование модели направлено на тех, у кого самые высокие прогнозы для какого-либо вмешательства. В здравоохранении распространенным вариантом использования является выявление пациентов, которые, вероятно, будут дорого обходиться, с целью нацеливания на них дополнительной координации помощи. Ниже мы показываем график для прогнозов медицинских затрат.

На этом графике сравнивается прогноз машинного обучения для медицинских затрат с существующим подходом, который просто ранжирует пациентов на основе их исторических затрат. Если мы посмотрим на 5% населения, которые, по прогнозам модели машинного обучения, будут нести самые высокие затраты, то эти пациенты составляют 38% от общих общих затрат. Если мы используем предварительную стоимость в качестве единственного ориентира, верхние 5% составляют только 33% от общей стоимости. Модель машинного обучения определяет на 15% больше затрат в популяции того же размера.

Кривая ROC существует уже более 70 лет и зарекомендовала себя очень полезной для широкого круга приложений, но не существует единого идеального графика точности для всех ситуаций. В зависимости от того, как используется модель, будут важны разные решения, поэтому разные графики будут наиболее релевантными.

Мы обнаружили, что кривая сбора результатов очень эффективна в ситуациях, когда прогнозы будут использоваться для выбора части населения с высоким риском для проведения вмешательств. Она похожа на кривую ROC, но представляет информацию в формате, который помогает напрямую ответить на вопрос о том, сколько вмешательств следует провести. Он также имеет то преимущество, что его можно использовать как с двоичным, так и с непрерывным прогнозированием.

В ClosedLoop.ai наша платформа прогнозной аналитики в сфере здравоохранения включает кривую Получение результатов как часть нашего стандартного отчета о точности модели, как в нашем пользовательском интерфейсе, так и в нашем пакете анализа Python. Для моделей бинарной классификации мы также отображаем кривую ROC, но мы неоднократно обнаруживали, что как специалисты по данным, так и владельцы бизнеса находят кривую захвата результатов более полезной при ответах на вопросы о точности.

Автор: Дэйв ДеКаприо, технический директор ClosedLoop
Дэйв имеет более чем 20-летний опыт внедрения передовых технологий из академических исследовательских лабораторий в успешный бизнес. Его опыт включает исследования генома, фармацевтические разработки, медицинское страхование, компьютерное зрение, спортивную аналитику, распознавание речи, транспортную логистику, исследования операций, сотрудничество в реальном времени, робототехнику и финансовые рынки.

Первоначально опубликовано на https://closedloop.ai 21 мая 2019 г.