Электронная медицинская карта (EHR), согласно Википедии, представляет собой систематизированный набор информации о здоровье пациентов и населения, хранящейся в электронном виде в цифровом формате. Эти записи передаются через сетевые или другие информационные сети и обмены. EHR могут включать в себя ряд данных, от демографических данных, истории болезни, лекарств и аллергий до статуса иммунизации, результатов лабораторных анализов, радиологических изображений, основных показателей жизнедеятельности, личной статистики, такой как возраст и вес, и информации для выставления счетов.
Этот проект представляет собой гипотетический случай, когда ученый, работающий с данными, работает с EHR для отбора пациентов с диабетом, и это один из моих проектов в рамках программы наностепеней AI for Healthcare. Этот проект должен продемонстрировать важность создания правильного представления данных на уровне встречи с соответствующей фильтрацией и предварительной обработкой / разработкой функций ключевых наборов медицинских кодов. Кроме того, учащимся потребуется проанализировать и интерпретировать свою модель предубеждений в ключевых демографических группах.
Заинтересованные стороны:
Фармацевтическая промышленность и регуляторы.
Задача:
Создайте регрессионную модель, которая может прогнозировать расчетное время госпитализации пациента, и используйте ее для выбора/фильтрации пациентов для вашего исследования.
Набор данных:
Этот проект был выполнен с использованием набора данных из UCI Irvin, который был модифицирован.
Я определил уровень набора данных, сравнив количество записей с количеством встреч. Количество записей было больше, чем количество встреч, что делает этот уровень линейного набора данных.
Затем я проанализировал набор данных и обнаружил:
а. Поле(я) с большим количеством отсутствующих/нулевых значений:
масса
A1Результат
медицинская_специальность
код_плательщика
б. Числовые поля имели гауссово/нормальное распределение
num_medications
num_lab_procedures
время_в_больнице
в. Поля с высокой кардинальностью
other_diagnosis_codes: 19374
код первичной_диагностики: 716
ндк_код: 251
Эти поля имеют большую мощность, потому что они являются кодами и создаются на основе диагностики и лечения в связи с полученным уроком.
д. Демографическое распределение.
Возраст. Распределение населения по возрасту составляет от 40 до 90 лет с максимальным числом 70–80.
Пол: женского населения больше, чем мужского.
Также отмечается, что женское население в возрастной группе 0-40 и 70-100 лет выше, а мужское население выше в возрастной группе 40-70 лет.
Затем я уменьшил размерность функции кода NDC.
Затем я упростил агрегирование данных для модели, чтобы предотвратить утечку данных о будущих встречах с пациентами и упростить этапы преобразования данных и моделирования, выбрав только первую встречу с пациентами. Затем последовало агрегирование данных до нужного уровня для моделирования.
Выбор функций:
Я исключил поля payer_code и weight, потому что в большинстве из них отсутствовали данные.
Разделение данных:
Я разделил данные на обучение, проверку и тестирование на 60%, 20%, 20% совокупности, а затем визуализировал демографию разделения.
Я также проанализировал эти сделанные шпагаты и визуализировал их.
Затем я преобразовал разделенные данные в наборы данных Tensorflow, создал словарь для преобразованного набора данных и создал категориальные функции с помощью API столбца функций Tensorflow. Затем я создал числовые функции с помощью столбцов функций Tensorflow.
Построение модели:
Я построил две модели; последовательная модель и модель диабета с активацией relu, RMSprop в качестве оптимизатора, MSE в качестве показателя потерь с ранней остановкой и 10 эпохами.
Прогноз:
Я проверил вывод прогноза, преобразовал вывод регрессии в вывод классификации для выбора пациента, добавив двоичный прогноз в тестовый фрейм данных.
Оценка модели:
Я оценил модель, используя AUC, отзыв, точность и показатель F1 с точностью 73%.
Оценка смещения:
Я оценил потенциальные предубеждения, используя инструментарий предвзятости Aequitas, и выбрал контрольную группу.
Анализ предвзятости:
Я проанализировал смещение поля расы и пола для отбора пациентов, которое показало, что пол, по-видимому, не имеет смещения, в то время как в расе PPR выше для европеоидов по сравнению с любой другой группой. Высокая точность для кавказцев означает, что будет меньше ложных срабатываний. Это также означает, что европейцы будут соответствовать прогнозам чаще, чем другие группы в этой модели.
Анализ справедливости:
Я провел анализ справедливости по отношению к референтной группе, которой был пол, и не обнаружил большого неравенства по каждому полу.
Вывод:
Этот проект помог укрепить мои знания об искусственном интеллекте в здравоохранении, сосредоточившись на использовании ЭУЗ для демографического отбора в случае клинических испытаний. Код можно найти в моем репозитории, и вы можете настроить гиперпараметры, чтобы получить лучшие результаты, чем я. Вы можете связаться со мной в LinkendIn для предложений и исправлений. Спасибо за чтение.