Отбор пациентов для клинических испытаний диабета с использованием EHR

Электронная медицинская карта (EHR), согласно Википедии, представляет собой систематизированный набор информации о здоровье пациентов и населения, хранящейся в электронном виде в цифровом формате. Эти записи передаются через сетевые или другие информационные сети и обмены. EHR могут включать в себя ряд данных, от демографических данных, истории болезни, лекарств и аллергий до статуса иммунизации, результатов лабораторных анализов, радиологических изображений, основных показателей жизнедеятельности, личной статистики, такой как возраст и вес, и информации для выставления счетов.

Этот проект представляет собой гипотетический случай, когда ученый, работающий с данными, работает с EHR для отбора пациентов с диабетом, и это один из моих проектов в рамках программы наностепеней AI for Healthcare. Этот проект должен продемонстрировать важность создания правильного представления данных на уровне встречи с соответствующей фильтрацией и предварительной обработкой / разработкой функций ключевых наборов медицинских кодов. Кроме того, учащимся потребуется проанализировать и интерпретировать свою модель предубеждений в ключевых демографических группах.

Заинтересованные стороны:

Фармацевтическая промышленность и регуляторы.

Задача:

Создайте регрессионную модель, которая может прогнозировать расчетное время госпитализации пациента, и используйте ее для выбора/фильтрации пациентов для вашего исследования.

Набор данных:

Этот проект был выполнен с использованием набора данных из UCI Irvin, который был модифицирован.

Я определил уровень набора данных, сравнив количество записей с количеством встреч. Количество записей было больше, чем количество встреч, что делает этот уровень линейного набора данных.

Затем я проанализировал набор данных и обнаружил:

а. Поле(я) с большим количеством отсутствующих/нулевых значений:

масса

A1Результат

медицинская_специальность

код_плательщика

б. Числовые поля имели гауссово/нормальное распределение

num_medications

num_lab_procedures

время_в_больнице

в. Поля с высокой кардинальностью

other_diagnosis_codes: 19374

код первичной_диагностики: 716

ндк_код: 251

Эти поля имеют большую мощность, потому что они являются кодами и создаются на основе диагностики и лечения в связи с полученным уроком.

д. Демографическое распределение.

Возраст. Распределение населения по возрасту составляет от 40 до 90 лет с максимальным числом 70–80.

Пол: женского населения больше, чем мужского.

Также отмечается, что женское население в возрастной группе 0-40 и 70-100 лет выше, а мужское население выше в возрастной группе 40-70 лет.

Затем я уменьшил размерность функции кода NDC.

Затем я упростил агрегирование данных для модели, чтобы предотвратить утечку данных о будущих встречах с пациентами и упростить этапы преобразования данных и моделирования, выбрав только первую встречу с пациентами. Затем последовало агрегирование данных до нужного уровня для моделирования.

Выбор функций:

Я исключил поля payer_code и weight, потому что в большинстве из них отсутствовали данные.

Разделение данных:

Я разделил данные на обучение, проверку и тестирование на 60%, 20%, 20% совокупности, а затем визуализировал демографию разделения.

Я также проанализировал эти сделанные шпагаты и визуализировал их.

Затем я преобразовал разделенные данные в наборы данных Tensorflow, создал словарь для преобразованного набора данных и создал категориальные функции с помощью API столбца функций Tensorflow. Затем я создал числовые функции с помощью столбцов функций Tensorflow.

Построение модели:

Я построил две модели; последовательная модель и модель диабета с активацией relu, RMSprop в качестве оптимизатора, MSE в качестве показателя потерь с ранней остановкой и 10 эпохами.

Прогноз:

Я проверил вывод прогноза, преобразовал вывод регрессии в вывод классификации для выбора пациента, добавив двоичный прогноз в тестовый фрейм данных.

Оценка модели:

Я оценил модель, используя AUC, отзыв, точность и показатель F1 с точностью 73%.

Оценка смещения:

Я оценил потенциальные предубеждения, используя инструментарий предвзятости Aequitas, и выбрал контрольную группу.

Анализ предвзятости:

Я проанализировал смещение поля расы и пола для отбора пациентов, которое показало, что пол, по-видимому, не имеет смещения, в то время как в расе PPR выше для европеоидов по сравнению с любой другой группой. Высокая точность для кавказцев означает, что будет меньше ложных срабатываний. Это также означает, что европейцы будут соответствовать прогнозам чаще, чем другие группы в этой модели.

Анализ справедливости:

Я провел анализ справедливости по отношению к референтной группе, которой был пол, и не обнаружил большого неравенства по каждому полу.

Вывод:

Этот проект помог укрепить мои знания об искусственном интеллекте в здравоохранении, сосредоточившись на использовании ЭУЗ для демографического отбора в случае клинических испытаний. Код можно найти в моем репозитории, и вы можете настроить гиперпараметры, чтобы получить лучшие результаты, чем я. Вы можете связаться со мной в LinkendIn для предложений и исправлений. Спасибо за чтение.