Плохой доступ к медицинской помощи и ошибки в дифференциальной диагностике представляют собой серьезную проблему для глобальных систем здравоохранения. Только в США около 5% амбулаторных пациентов ежегодно получают неверный диагноз. У пациентов с серьезными заболеваниями около 20% пациентов неправильно диагностируются на уровне первичной медико-санитарной помощи, из которых 1/3 случаев приводит к серьезному вреду для пациента.

Если машинное обучение должно помочь преодолеть эти проблемы, важно, чтобы мы сначала поняли, как выполняется диагностика, и четко определили желаемый результат наших алгоритмов. Существующие подходы, такие как подходы на основе байесовской модели и глубокого обучения, объединяют диагностику с ассоциативным выводом. В то время как первое включает определение основной причины симптомов пациента, второе включает изучение корреляций между данными пациента и возникновением заболевания, определение наиболее вероятных заболеваний в популяции, к которой принадлежит пациент. Хотя этого подхода, возможно, достаточно для простых причинно-следственных сценариев, связанных с отдельными заболеваниями, он накладывает серьезные ограничения на точность этих алгоритмов при применении к дифференциальной диагностике, когда клиницист выбирает из множества конкурирующих гипотез болезни. Преодоление этих ограничений требует фундаментального переосмысления того, как мы определяем диагноз и как мы разрабатываем диагностические алгоритмы.

Ассоциативная диагностика

Диагностика на основе модели использует модель, параметризованную параметром θ, для оценки вероятности заболевания (D) с учетом результатов (ε), которые могут включать симптомы, результаты анализов и соответствующий анамнез. Апостериорные вероятности используются для ранжирования болезней для дифференциальной диагностики. Эти алгоритмы могут быть:

  • Дискриминативный: как нейронные сети

  • Генеративный: как байесовские сети

Причинное определение диагноза

Выявление заболевания, которое с наибольшей вероятностью вызывает симптомы у пациента, учитывая его историю болезни.

Использование только апостериорного анализа для определения причинно-следственных связей может привести к ложным выводам во всех сценариях, кроме самых простых причинно-следственных связей — смешению.

Пример —для случая b

Пожилой курильщик жалуется на боль в груди, тошноту и утомляемость. Хороший врач поставит диагноз, который является вероятным и актуальным с учетом имеющихся данных (например, стенокардия). Хотя этот пациент принадлежит к популяции с высокой распространенностью эмфиземы, маловероятно, что это заболевание вызвало представленные симптомы, и его не следует выдвигать в качестве диагноза. Эмфизема положительно коррелирует с симптомами пациента, но это в первую очередь связано с общими причинами.

Пример —для случая c

Исследование показало, что пациенты с астмой, которые были госпитализированы по поводу пневмонии, подвергались более агрессивному лечению от инфекции, что снизило уровень смертности среди населения. Ассоциативная модель, обученная на этих данных для диагностики пневмонии, узнает, что астма является защитным фактором риска — опасный вывод, который может привести к тому, что для астматиков будет предложен менее агрессивный режим лечения, несмотря на то, что астма увеличивает риск развития пневмонии. В этом примере искажающим фактором является ненаблюдаемый уровень медицинской помощи, полученной пациентом.

Принципы диагностического обоснования

Чтобы рассуждать о причинной ответственности,что вероятность того, что возникновение эффекта S было связано с причиной заболевания D, нам требуется диагностическая мера M(D, ε),который должен удовлетворять следующим свойствам:

  • Последовательность
    Вероятность того, что заболевание D вызывает симптомы у пациента, должна быть пропорциональна апостериорной вероятности этого заболевания
  • Причинно-следственная связь
    Болезнь D, которая не может вызвать ни одного из симптомов пациента, не может служить диагнозом
  • Простота
    Болезни, объясняющие большее количество симптомов пациента, должны быть более вероятными

Апостериор удовлетворяет только первому условию, нарушая два последних.

Контрфактический диагноз

Контрфакты могут проверить, произошли бы ли определенные результаты, если бы некоторые предварительные условия были другими.

P(ε = e´| ε = e, do(X=x))

Имея свидетельство ε=e, мы вычисляем вероятность того, что мы наблюдали бы другой результат ε=e´, если бы имело место какое-то гипотетическое вмешательство do(X=x).

Контрфактуалы дают нам язык для количественной оценки того, насколько хорошо гипотеза болезни D = T объясняет свидетельство симптома S = T, определяя вероятность того, что симптома не будет, если мы вмешаемся и «вылечим» болезнь, установив do(D = T). F), определяемый контрфактической вероятностью P(S = F ∣ S = T, do(D = F))

Мы определяем следующие две контрфактические меры:

  • Ожидаемая инвалидность
    Это количество имеющихся симптомов, которые мы ожидаем «выключить» , если мы вмешаемся, чтобы вылечить Д. (выведено из понятия необходимых причина)

  • Ожидаемая достаточность
    Это количество положительно подтвержденных симптомов, которые, как мы ожидаем, сохранятся, если мы вмешаемся, чтобы «выключить» все другие возможные причины симптомов пациента. (происходит от понятия достаточной причины)

Здесь D было бы достаточной причиной S. Однако в случае множественных конкурирующих заболеваний наличие S не означает предшествующего возникновения D. Если мы не можем предположить, что болезнь является достаточной причиной S, ожидаемая инвалидность должен быть использован.

Структурно-причинные модели для диагностики

Байесовские сети (БС) обычно используются в качестве статистических диагностических моделей, поскольку они поддаются интерпретации и явно кодируют причинно-следственную связь между переменными. Эти модели обычно представляют заболевания, симптомы и факторы риска в виде бинарных узлов. Он представляет их в виде ориентированного ациклического графа (DAG).

В области каузального вывода BN заменяются более фундаментальными структурно-причинными моделями (SCM). Они представляют каждую переменную как детерминированную функцию своих непосредственных причин вместе с ненаблюдаемым экзогенным «шумовым» членом, который сам представляет все причины вне нашей модели.

Контрфакты, как правило, не могут быть идентифицированы только на основе данных и требуют допущений моделирования, таких как знание лежащих в основе структурных уравнений.

Двойные диагностические сети Noisy-OR

Иногда необходимо сделать дополнительные допущения при моделировании помимо тех, что подразумевается структурой DAG. Затем используются модели Noisy-OR, поскольку они отражают основные интуитивные представления о том, как связаны заболевания и симптомы, и позволяют описывать большие BN с помощью ряда параметров, которые линейно растут с размером сети.

Согласно предположению с шумовым ИЛИ, родительский элемент Di активирует свой дочерний элемент S (в результате чего S = 1), если (i) родительский элемент включен, Di = 1, и (ii) активация не завершается случайным образом. Вероятность отказа (λ_{Di, S}) не зависит от всех других параметров модели. Компонент «ИЛИ» зашумленного ИЛИ утверждает, что дочерний элемент активируется, если любой из его родителей успешно активирует его. Конкретно, логическое ИЛИ используется для оценки значения s = ∨ f(di, ui), где функции активации 𝑓(𝑑𝑖,𝑢𝑖)=𝑑𝑖∧𝑢¯, ∧ обозначает логическую функцию И, di ∈ {0, 1} — состояние данного родителя Di и ui ∈ {0, 1} — переменная скрытого шума (𝑢¯𝑖:=1−𝑢𝑖) с вероятностью отказа 𝑃(𝑢𝑖=1)=𝜆_{𝐷𝑖,𝑆} .

Сети-близнецы представляют реальные и гипотетические переменные вместе в одном SCM, значительно амортизируя стоимость вывода при расчете контрфактических значений по сравнению с похищением, что трудно поддается обработке для больших SCM.

Противоречивые и ассоциативные рейтинги

Ранжирование болезни вычисляется с использованием апостериорного значения для ассоциативного алгоритма и ожидаемой нетрудоспособности и ожидаемой достаточности для контрфактических алгоритмов.

Для k = 1, возвращая болезнь с наивысшим рейтингом, точность алгоритма контрфактуальности на 2,5% выше, чем у ассоциативного алгоритма. Для k > 1 производительность двух алгоритмов расходится, при этом контрфактический алгоритм дает значительное снижение частоты ошибок по сравнению с ассоциативным алгоритмом. Для k > 5 контрфактический алгоритм уменьшает количество ошибочных диагнозов примерно на 30 % по сравнению с ассоциативным алгоритмом. Это говорит о том, что наилучшее заболевание-кандидат достаточно хорошо идентифицируется апостериорным, но ранжирование, основанное на контрфактах, значительно лучше идентифицирует следующие наиболее вероятные заболевания. Эти вторичные заболевания-кандидаты особенно важны для дифференциальной диагностики с целью сортировки и определения оптимальных стратегий тестирования и лечения.

Сравнение с врачами

В этом эксперименте контрфактический и ассоциативный алгоритмы сравниваются с когортой из 44 врачей. Каждому врачу назначается набор из не менее 50 виньеток (в среднем 159), и он возвращает независимый диагноз для каждой виньетки в виде частично ранжированного списка kзаболеваний.

В целом ассоциативный алгоритм работает наравне со средним врачом, достигая средней точности по всем маршрутам 72,52 ± 2,97% против 71,4 ± 3,01% для врачей. Алгоритм набирает больше, чем 21 врач, рисует с 2 врачами и меньше, чем 21 врач. Алгоритм контрфактики достигает средней точности 77,26 ± 2,79%, что значительно выше, чем у среднего врача и ассоциативного алгоритма, что ставит его в 25% лучших врачей в когорте. Алгоритм контрфактики набрал больше, чем 32 врача, рисует с 1 и имеет меньшую точность, чем 12.

Таким образом, мы обнаруживаем, что контрфактический алгоритм обеспечивает значительно более высокую диагностическую точность, чем ассоциативный алгоритм. Мы обнаружили, что улучшение особенно выражено при редких заболеваниях. В то время как ассоциативный алгоритм работает наравне со средним врачом, контрфактический алгоритм находится в верхнем квартиле врачей.