Мэтт Макклелланд, специалист по данным

Планы в сфере здравоохранения исторически оценивались по оптовым ценам, что было сделано для снижения риска для людей путем размещения денег в пулах. При прогнозировании этой стоимости обычно используются агрегированные функции, такие как историческая стоимость учетной записи и демографические данные учетной записи.

Растущие возможности обработки больших и неструктурированных данных, а также прогресс в моделировании делают прогнозы на индивидуальном уровне все более осуществимыми и привлекательными альтернативами моделированию на агрегированном уровне. В моделях индивидуального уровня могут использоваться медицинские данные, включая лабораторные показатели, диагнозы, рецепты или даже записи врачей, для прогнозирования затрат на одного пациента. Однако есть риски в наивном агрегировании прогнозов индивидуального уровня с прогнозами на уровне аккаунта без должного учета потенциально преувеличенной ошибки модели.

Преимущества индивидуальных прогнозов
Просмотр на уровне аккаунта - это крайнее упрощение очень сложной взаимосвязи затрат между здоровьем пациентов, больницами и поставщиками медицинских услуг. Например, более подробный взгляд на медицинские заявления пациентов может дать более точные прогнозы затрат. Данные о заявках состоят из тысяч возможных медицинских кодов, каждый из которых представляет собой событие в истории болезни пациента. Модели уровня пациента могут обнаруживать сложные взаимодействия между этими кодами, которые позволяют прогнозировать стоимость. С этой целью Lumiata разработала надежный процесс маркировки пациентов, способный переводить данные о заявках на временные шкалы пациентов. Мы используем это тремя способами:

  • Глубина. Временные рамки пациентов часто не зависят от временных рамок группы. Представление на уровне пациента обеспечивает гибкую агрегацию, которая не ограничивается временем существования группы. Это помогает с проблемой холодного старта (что прогнозировать для новых групп) и позволяет нам использовать полную временную шкалу пациента.
  • Реактивность. Известно, что пациенты с определенными заболеваниями могут представлять непропорционально высокую стоимость медицинского обслуживания, но эти пациенты не видны на групповом уровне. Выявление болезненных состояний с высокими затратами до того, как они повлекут за собой рост затрат, может быть огромным преимуществом.
  • Данные, данные, данные. Представление на уровне пациента позволяет использовать больше функций, более сложные модели (например, глубокое обучение и усиленные деревья) и другие обучающие примеры. Из-за агрегации модели на уровне группы ограничены всего несколькими тысячами обучающих примеров, что снижает возможность обнаружения сложных шаблонов.

Обеспокоенность индивидуальными прогнозами
Но большая сила влечет за собой большую ответственность. Подход к прогнозированию затрат на уровне пациента создает сложность, которую необходимо строго контролировать. Есть несколько характеристик стоимости здравоохранения, которые делают это особенно актуальным:

  • Крайне отклоняющиеся значения. Пациенты с высокими затратами могут иметь непропорционально большой вес в функциях затрат.
  • Разреженные данные. Высокая размерность пространства функций означает, что большинство функций большую часть времени являются нулевыми.
  • Шумные сигналы. Даже в повседневной медицинской практике диагноз, лечение и стоимость могут варьироваться от врача к врачу и от пациента к пациенту.

Более сложные модели (с низким смещением, см. Ниже) могут адаптироваться к этим характеристикам, но рискуют переобучить (высокая дисперсия). Ниже я рассмотрю компромисс смещения и дисперсии, а также то, как использовать гиперпараметры для управления сложностью модели.

Обзор отклонения и отклонения
Для более глубокого анализа соотношения отклонения и отклонения я бы предложил отличный онлайн-ресурс Дэвида Далпиаза R for Statistical Learning. Примеры, которые я здесь привожу, адаптированы из этого ресурса.

Предположим некоторый случайный вектор (X, Y) со значениями в ℝᵖ × ℝ и определим f (x) для E (Y | Х = х). Обратите внимание, что эта форма f (x) минимизирует ожидаемую квадратичную ошибку, представляя наилучший возможный прогноз, который мы можем сделать. Поскольку f (x) неизвестно, мы аппроксимируем его с помощью f̂ (x), используя некоторые обучающие данные D и наш любимый алгоритм машинного обучения. Обратите внимание, что когда я говорю об «алгоритме», я имею в виду метод, используемый для изучения конкретной модели.

Используя эти определения и условия для X, обратите внимание, что ожидаемое значение прогноза можно разложить на два отдельных компонента: уменьшаемую ошибку и неснижаемую ошибку:

Сводимая ошибка - это то, что мы стремимся уменьшить * барабанную дробь *, поскольку она является мерой нашего приближения f (x) к f̂ (x). . С другой стороны, неприводимая ошибка, равная V (Y | X = x), просто не является обучаемой функцией X и должна восприниматься как шум. Из уменьшаемой ошибки мы можем дополнительно вывести смещение и дисперсию.

Смещение - это мера отклонения от ожидаемой формы наших моделей и f (x). Слово «ожидаемый» означает, что модель является функцией базовых данных, на которых обучается алгоритм, которые сами по себе являются случайной величиной. Дисперсия, с другой стороны, измеряет ожидаемое отклонение f̂ (x) от ожидаемого соответствия f̂ (x).

Оно всегда возможно иметь полностью несмещенные модели с высокой дисперсией за счет точной подгонки обучающих данных, но они будут значительно меняться в зависимости от входных данных, и поэтому будут плохо обобщаться (то есть переобучаться). Чтобы снизить дисперсию, модель должна делать определенные обобщающие допущения. Чем больше таких предположений он делает, тем меньше дисперсия - но за счет смещения, если наши предположения оказываются неверными. Например, если мы подбираем линейную регрессию для ожидаемых истинных значений, которые не являются линейными по характеристикам, то это плохое предположение, которое приводит к смещению; однако это снижает дисперсию.

Визуализация смещения и дисперсии
Чтобы продемонстрировать компромисс смещения и дисперсии, я неоднократно подгонял полиномиальные модели к смоделированным данным (нормально распределенные случайные точки со средним значением ), как определено в следующем фрагменте кода.

Ниже я использовал 3 алгоритма, представляющих смещенный алгоритм (k = 1), беспристрастный алгоритм с низкой дисперсией (k = 2) и беспристрастный алгоритм с высокой дисперсией ( k = 10):

На приведенном выше графике f̂₁ кажется вполне совместимым с различными данными обучения, даже если в нем отсутствует истинная форма f (определенная выше как ). . Напротив, обратите внимание, что f̂₁₀, следуя тенденции данных, кажется, сильно варьируется от моделирования к моделированию.

Ниже я повторяю описанное выше моделирование 100 раз и для каждой модели вычисляю f (x) −f̂k (x), где x = 0,8. Обратите внимание, что центр каждого результирующего распределения указывает смещение, вносимое алгоритмом, а ширина распределения указывает дисперсию соответствия:

Здесь следует отметить несколько моментов: для алгоритма со смещением, f̂₁, мы видим, что распределение соответствия не сосредоточено вокруг 0; однако он относительно плотный. По мере увеличения k смещение уменьшается, но также увеличивается разброс соответствия. Кроме того, обратите внимание, что даже для хорошо обусловленного алгоритма процессу подбора присуща случайность.


Риски агрегирования

Что происходит с ошибками при использовании агрегированных моделей? Наивный подход к прогнозам на уровне группы состоит в том, чтобы обучить модель на уровне пациента, а затем для каждой группы установить совокупный прогноз на сумму прогнозов пациента для каждого члена группы. Тогда возникает вопрос: оптимизирует ли эта процедура ошибку группового уровня? Оказывается, нет!

Чтобы убедиться в этом, рассмотрим следующую эвристику. Пусть группа размером N состоит из лиц со значениями признаков

и истинные затраты

Кроме того, мы предполагаем, что затраты для пациентов независимы и все 𝑥 равны (если наивное агрегирование не удается даже с этим предположением, в целом нет никакой надежды). Затем:

где f (x): = E (Y | X = x), и εᵢ - независимые одинаково распределенные переменные со средним значением 0 .

Как и раньше, ошибка уровня пациента для X = x имеет декомпозицию:

где V (εᵢ) = σ² для всех i.

Давайте теперь посмотрим на ошибку на уровне группы:

из-за линейности математического ожидания и того факта, что дисперсия суммы независимых переменных является суммой дисперсий этих переменных.

Таким образом, ошибка агрегирования не линейное кратное сумме ошибок индивидуальных прогнозов! На агрегированном уровне сводимая ошибка умножается на квадрат N (на самом деле и смещение, и дисперсия умножаются на квадрат N), но неснижаемая ошибка равна умножается только на N.

Обсуждение
В приведенном выше анализе мы можем тривиально заметить, что предвзятость усугубляется. Кто-то, не имеющий большого опыта в области науки о данных, может подумать, что мы можем немного недооценить здесь и немного переоценить ... но эй! все это составляет нулевую сумму! Это напоминает старую шутку: «Мы теряем деньги на каждой продаже, но компенсируем их на объеме!» То есть, когда вы складываете много мелких убытков, вы получаете большие убытки!

В сфере здравоохранения мы еще более склонны усугублять ошибку нашей модели, потому что счета обычно более однородны, чем общая совокупность; то есть участники в учетных записях больше похожи друг на друга, чем на участников в общей совокупности. Например, рассмотрим лесозаготовительную компанию (наиболее подверженная несчастным случаям работа в Америке). В этом случае ожидаемая стоимость участников выше, чем у населения в целом. Поскольку наша прогнозируемая стоимость f̂ (x) меньше ожидаемой стоимости f (x), мы ввели смещение. Кроме того, поскольку мы прогнозируем в совокупности для каждого члена этой учетной записи, мы будем усугублять нашу систематическую ошибку для каждого прогноза! Мы можем обобщить это на любую учетную запись, характеристики которой не отражаются в общей совокупности.

Сделаем здравоохранение умнее
Оптимизация прогнозов для пациентов с учетом совокупной производительности - это область активных исследований в Lumiata. Ниже приведены некоторые стратегии, которые мы используем при прогнозировании на уровне группы:

  • Оптимизируйте прогнозы пациентов для работы на групповом уровне.
  • Оцените групповые прогнозы на предмет признаков агрегированной ошибки.
  • Создавайте дополнительные корректирующие модели на основе агрегированных прогнозов, используя функции на уровне группы.


Следуя этой дорожной карте, мы можем использовать данные на уровне пациентов, избегая ловушек, которые могут сопровождать наивную агрегацию. Если вы заинтересованы в построении и масштабировании крутых моделей с медицинскими данными, Lumiata нанимает!

Посетите Lumiata на www.lumiata.com и подпишитесь на Twitter через @lumiata.