Опубликовано 31.12.2016, отредактировано 07.11.2019.

Потребность в лучшей интерпретируемости моделей и количественной оценке неопределенности может способствовать использованию байесовских сетей (БС) и связанных с ними гибридных подходов в здравоохранении. Например, состояние убеждения можно комбинировать с функцией полезности для вычисления ожидаемой полезности диагностического теста, тем самым облегчая рассуждения, основанные на ценностях, в системе здравоохранения.

Технология массива белков с обращенной фазой (RPPA) обеспечивает платформу для измерения белков высокой размерности в биологических образцах. Эта технология потенциально может привести к разработке новых диагностических тестов. В исследовании, опубликованном в 2013 году (1), мы проанализировали набор данных измерений содержания белков и уровней фосфорилирования, полученных с помощью технологии RPPA в образцах нормальной ткани и раке молочной железы человека. Из-за высокой размерности (M = 71) и небольшого размера (N = 112) этого сбалансированного набора данных было выбрано подмножество атрибутов, связанных с сигнальным путем Met, и дискретизировано в логические случайные величины. Затем был проведен эксперимент по выбору модели для набора топологий BN, чтобы проверить, какие предположения об условной независимости лучше отражают «концепцию рака молочной железы» в наборе данных.

Реализация БС, использованная в приведенном выше исследовании, позволяла легко изменять набор рассматриваемых атрибутов и топологий БС для расширения области анализа данных. Результаты на рисунках 1 и 2 демонстрируют эту функциональность. Каждая топология BN, показанная на рисунке 1, была оценена в 10-кратном эксперименте по перекрестной проверке. В каждом раунде перекрестной проверки параметры BN оценивались с помощью метода оценки параметров максимального правдоподобия, а точность классификации результирующей модели BN оценивалась на текущем тестовом наборе (альтернативой было бы вычисление логарифмического правдоподобия тестового набора). ). Затем средняя точность классификации набора тестов использовалась для определения оптимальной топологии, как показано на рисунке 2.

Наивный байесовский метод — это линейный разделитель, в котором атрибуты не зависят друг от друга, если они обусловлены случайной величиной класса. Каждый атрибут в наивной байесовской модели может влиять на решение о классификации только индивидуально. Наивная байесовская топология привела к средней точности классификации теста 69,5% (рис. 2). Этот результат согласуется с предыдущим наблюдением о том, что количество и уровни фосфорилирования измеренных белков обычно имеют тенденцию быть выше в образцах опухоли по сравнению с образцами нормальной ткани (1).

Таким же образом были оценены семь дополнительных топологий BN. Путем добавления прямых вероятностных зависимостей между Met.p и cRaf.p (топология MET на рис. 1), Akt.p и cRaf.p (топология MET+AKT на рис. 1) и Axl и Met.p (AXL+MET+AKT). топологии на рис. 1), средняя точность классификации теста увеличилась до 76,5 %, 79,1 % и 81,8 % соответственно (рис. 2). Однако дальнейшего повышения средней точности классификации тестов после расширения топологии AXL+MET+AKT не наблюдалось (рис. 2). Таким образом, топология AXL+MET+AKT была определена как оптимальная в наборе оцененных топологий BN. При анализе этого набора данных прямые вероятностные зависимости, представленные ребрами между случайными величинами белка, могут быть интерпретированы причинно как потенциальные молекулярные взаимодействия. Таким образом, результаты на рисунке 2 требуют дальнейших экспериментальных исследований.

Приведенный выше подход демонстрирует, как интерпретируемые модели могут направлять последующие исследования. Поскольку дополнительные данные генерируются с помощью технологии RPPA в стандартных условиях, можно оценить более богатые топологии BN с непрерывным распределением вероятностей для некоторых или всех атрибутов. Если в будущем будет разработан (сопутствующий) диагностический тест, соответствующая модель BN может i) количественно определить неопределенность такого теста и ii) поддерживать практический уровень интерпретируемости результатов теста и лежащих в их основе допущений для пациентов, поставщиков медицинских услуг и плательщиков.

  1. Гуджрал и др. Профилирование фосфосигнальных сетей при раке молочной железы с использованием массивов белков с обращенной фазой. Онкоген (2013).