Прогнозное моделирование

Важными темами для нас являются аналитика в сфере здравоохранения и интеллектуальный анализ данных. Приложения для здравоохранения и медицинские данные пересекаются с наукой о данных и аналитикой больших данных. Понимание алгоритмов обработки больших данных.

Эта статья является частью серии статей на тему Большие данные для курса информатики здравоохранения
Вы можете перейти по приведенной выше ссылке, чтобы понять эту тему в контексте полного курса, однако я буду обсуждать прогностическое моделирование в способ, который можно понять независимо от полного курса.

Примечание. Для этой статьи требуется знание концепций машинного обучения.

Введение

Что такое прогнозное моделирование

Это процесс моделирования исторических данных для прогнозирования будущих событий. Например, мы хотим использовать EHR (электронную медицинскую карту), которая у нас есть, для построения модели прогнозирования сердечной недостаточности.

Ключевые цели этой статьи

Как разработать хорошую прогностическую модель.

Мы будем использовать EHR в качестве варианта использования. Мотивация для этого связана с ростом интереса к данным EHR как к основному источнику данных для исследований в области клинического прогностического моделирования, поэтому важно научиться разрабатывать прогностическую модель с использованием данных EHR.

Конвейер прогнозного моделирования

Прогнозное моделирование — это не единый алгоритм, а вычислительный конвейер, включающий несколько шагов:

Цель прогноза. На первом этапе мы определяем прогноз, который хотим сделать. Например, «Какова вероятность того, что у пациента в будущем разовьется рак легких?»
Существует бесконечное множество существующих целей, и мы должны выбрать цель, которая интересна и на которую можно ответить.
Построение когорты. Затем мы собираем соответствующие данные, в нашем примере нам понадобятся данные истории болезни.
Построение функций. Затем мы определили все потенциально важные функции для этого исследования.
Выбор функций. Затем мы выбираем только соответствующие функции, которые помогут нам с целью прогнозирования.
Прогнозная модель. Теперь мы можем вычислить прогнозную модель, используя различные алгоритмы машинного обучения.
Оценка производительности - мы оцениваем производительность модели

Этот процесс является итеративным и останавливается только тогда, когда мы удовлетворены результатами.

Пример использования сердечной недостаточности для прогнозного моделирования

1. Определение цели прогнозирования:

«Выявление сердечной недостаточности»

Мотивация раннего выявления сердечной недостаточности заключается в том, что это сложное заболевание. Не существует общепринятого определения этого заболевания, и сложность существует из-за нескольких идеологий, разнообразных клинических особенностей и многочисленных клинических подмножеств.

Если мы сможем обнаружить сердечную недостаточность раньше, краткосрочные преимущества включают: сокращение госпитализации пациентов, внедрение раннего вмешательства и снижение смертности. Долгосрочные преимущества улучшат клинические рекомендации по профилактике сердечной недостаточности.

2. Когортная конструкция

Построение когорты связано с определением подмножества пациентов.

Для всей целевой популяции существует подмножество пациентов, которые имеют отношение к делу. Этих пациентов называют исследуемой популяцией. Часто невозможно получить все данные изучаемой совокупности, поэтому мы используем подмножество изучаемой совокупности, которое называется набором данных для исследования.

Мы можем рассматривать пациентов либо проспективно, либо ретроспективно, то есть пациентов, у которых может быть сердечная недостаточность, или тех, у кого она уже есть.

Примечание. Потенциальныепациенты сначала идентифицируются, а затем мы собираем данные о них, тогда как ретроспективныепациенты идентифицируются сначала, а затем мы прослеживаем исторические записи пациентов для сбора данных

Мы также можем рассмотреть пациентов в групповом исследованииили клиническом исследовании. Эти альтернативы предоставьте нам 4 комбинации набора данных исследования. Это определено в приведенной ниже матрице.

Примечание. Когорта – это группа людей с общими характеристиками. Ключевым моментом является определение критериев включения и исключения.
В исследовании случай-контроль сравниваются две группы людей: люди с изучаемым заболеванием (случаи) и очень похожая группа людей, у которых не иметь заболевания (контроль)

Например, когда мы отбираем пациентов на основе когортного исследования, мы хотим ориентироваться на пациентов с повторной госпитализацией по поводу сердечной недостаточности. Эти данные должны содержать как положительные, так и отрицательные примеры.

Для исследований случай-контроль мы объединяем пациентов, у которых развилось заболевание, с контрольной группой пациентов, у которых его нет.
Чтобы определить, какие пациенты составляют часть контрольной группы, нам необходимо создать набор соответствующих контрольных критериев. Это может включать сопоставление пациентов в аналогичной возрастной группе, поле, местоположении). В случае контроля мы сначала идентифицируем пациентов, а затем сопоставляем их.

3. Особенности построения

Целью этого шага является сбор потенциально релевантных функций для прогнозирования целевого результата.
Необработанные данные о пациентах поступают в виде последовательности событий во времени. Ключевые периоды на этой временной шкале стоит понимать их отношение к построению функций:

Дата постановки диагноза. Это дата достижения целевого исхода — в нашей группе тематического исследования это дата, когда у пациента была диагностирована сердечная недостаточность. Поскольку у контрольных пациентов теоретически нет даты диагноза, мы могли бы использовать ту же дату, что и даты тематического исследования.
Окно прогноза: время для определения результатов диагностики.
Дата индекса:дата, когда мы хотим, чтобы прогностическая модель сделала прогноз о целевом исходе до даты постановки диагноза.
Окно наблюдения. Это время до даты индексации. Это период времени, в течение которого мы создаем функции. Существует множество функций, к которым у нас может быть доступ, например, мы можем собирать информацию об образе жизни, мы можем собирать клинические данные пациентов и усреднять их.

Длина окна прогноза и окна наблюдения влияет на производительность моделей. Большое окно прогноза и маленькое окно наблюдения — наиболее полезная модель.
Это потому, что мы хотим прогнозировать далеко в будущее с меньшим количеством данных, следовательно, с небольшими данными наблюдения.

4. Выбор функции

На этом этапе мы смотрим на функции из необработанных данных в окне наблюдения. Цель выбора признаков состоит в том, чтобы найти действительно прогностические признаки для включения в модель, другими словами, выбрать подмножество признаков, которые, по нашему мнению, отвечают за целевой результат. Существуют различные типы объектов, от которых мы можем абстрагироваться от объектов в период наблюдения:

Демография
Диагноз
Результаты лаборатории
жизненно важные органы
Лекарства
Симптомы

Однако не все эти типы объектов предоставляют нам релевантные данные для цели. Эти функции могут различаться в зависимости от различных целевых результатов. Существуют существующие исследования, которые могут помочь в определении ценных функций, альтернативно путем проб и ошибок вы можете определить, какие функции дают наилучшие результаты, поскольку прогнозное моделирование является итеративным процессом.

5. Прогностические модели

Построение прогностической модели заключается в создании функции, которая сопоставляет входные признаки с выходной целью.

В зависимости от значения цели модель может быть либо проблемой регрессии, либо проблемой классификации.

Проблемы регрессии определяются непрерывным целевым значением (y). Популярные алгоритмы для решения этих проблем включают модели линейной регрессии и обобщенные аддитивные модели.

Проблемы классификации определяются тем, что target(y) является категориальным. Популярные алгоритмы для их решения включают логистическую регрессию, машины опорных векторов, деревья решений, случайный лес и т. д.

6. Оценка производительности

Это последний шаг конвейера прогнозной модели. Чтобы оценить, насколько хороша наша модель, мы обучаем ее на некоторых образцах и тестируем на невидимых образцах, в идеале на будущих данных.

Как измерить производительность модели:

Ошибка обучения: это не очень полезная мера производительности прогностических моделей, поскольку мы можем легко подобрать данные, используя сложную модель, которая плохо обобщает будущие выборки.
Ошибка тестирования: является ключевой метрикой, поскольку она намного лучше отражает истинную производительность модели на будущих образцах.

Перекрестная проверка использует ошибку тестирования для измерения производительности модели. CV итеративно разбивает данные на наборы для обучения и тестирования. Мы строим модель на наборе для обучения и проверяем модель на наборе для тестирования. Это выполняется итеративно, и, наконец, ошибка тестирования, наблюдаемая в каждой итерации, усредняется и вычисляется как показатели производительности. Существует три распространенных метода перекрестной проверки:

Без 1 резюме: мы используем одну запись данных в качестве тестовой выборки, а оставшиеся данные используем для обучения. Мы перебираем все данные, делая каждую запись тестовой выборкой. Мы усредняем ошибку тестирования по всем итерациям.
K-кратное CV: это похоже на пропуск 1, за исключением того, что мы делим данные на k сгибов, каждый из которых будет тестовым набором. Пример: у нас есть 10 записей данных, которые мы хотим использовать K=2. Мы создаем 2 сгиба по 5 образцов в каждом (10/2), а затем вычисляем среднюю ошибку тестирования для каждого сгиба/итерации.
Рандомизированное резюме: мы случайным образом разделяем данные на данные для обучения и тестирования. Результаты проверки ошибки усредняются по всем сплитам. Преимущество рандомизированного CV перед K-кратным состоит в том, что пропорция обучающей и тестовой выборки не зависит от количества кратностей. Недостатком этого метода является то, что некоторые данные могут никогда не попасть в набор для тестирования.

Примечание. Некоторые люди используют набор для проверки и набор для тестирования как синонимы.

Краткое напоминание: полное резюме курса можно найти на курсе Большие данные для информатики здравоохранения

Надеюсь, вы чему-то научились.

-R