Исследователи из NYU Langone Health совместно с NVIDIA разработали большую языковую модель (LLM), которая прогнозирует риск повторной госпитализации пациента в течение 30 дней.

TLDR

Почти 15% пациентов больниц в США повторно госпитализируются в течение 30 дней после их первоначальной выписки, что часто связано с худшими результатами и более высокими затратами как для пациентов, так и для больниц. Нью-Йоркский университет совместно с экспертами NVIDIA разработал большую языковую модель (LLM), которая прогнозирует риск повторной госпитализации пациента в течение 30 дней, а также другие клинические исходы.

Абстрактный

Каждый день врачи принимают важные решения, ограниченные во времени. Клинические прогностические модели могут помочь врачам и администраторам принимать решения, прогнозируя клинические и операционные события. Существующие модели клинического прогнозирования на основе структурированных данных имеют ограниченное применение в повседневной практике из-за сложности обработки данных, а также сложности разработки и развертывания моделей 1, 2, 3.

Здесь мы показываем, что неструктурированные клинические записи из электронной медицинской карты могут способствовать обучению моделей клинического языка, которые можно использовать в качестве универсальных механизмов клинического прогнозирования с низким сопротивлением разработке и развертыванию. Наш подход использует последние достижения в области обработки естественного языка 4, 5 для обучения большой языковой модели для медицинского языка (NYUTron) и последующей точной настройки ее для широкого спектра клинических и операционных задач прогнозирования.

Мы оценили наш подход в нашей системе здравоохранения для пяти таких задач:

1. 30-дневный прогноз реадмиссии по всем причинам,

2. прогноз внутрибольничной летальности,

3. прогнозирование индекса коморбидности,

4. прогноз продолжительности пребывания и

5. прогнозирование отказа в страховании.

Мы показываем, что NYUTron имеет площадь под кривой (AUC) 78,7–94,9% с улучшением AUC на 5,36–14,7% по сравнению с традиционными моделями. Кроме того, мы демонстрируем преимущества предварительного обучения с клиническим текстом, потенциал для повышения обобщаемости для различных сайтов за счет точной настройки и полного развертывания нашей системы в проспективном исследовании с одной группой. Эти результаты показывают эффективность потенциал для использования моделей клинического языка в медицине, чтобы читать вместе с врачами и давать рекомендации по месту оказания медицинской помощи.

Почему подход на основе LLM?

Уровень реадмиссии в течение 30 дней — один из старейших показателей эффективности лечения в больницах. Он имеет высокую корреляцию с качеством жизни пациента, заболеваемостью, смертностью и финансовыми затратами/бременем ухода.

До сих пор большинство этих моделей основывались на элементах структурированных данных, полученных из электронных медицинских карт (EHR), и структурированной информации в медицинских заявлениях (открытых заявлениях). Оба эти элемента ограничены в информации из-за усердия врача и людей в кабинете врача. Электронные медицинские карты обычно состоят из двух элементов: во-первых, это клинические заметки, заметка с полностью произвольным текстом, которая включает в себя изложение мыслей врача. Это затрудняет получение информации. Данные претензий в основном создаются для финансовых целей (выставление счетов). Если за что-то будет взиматься плата (лекарство, процедура, консультация, услуга), это будет отмечено в данных требований о медицинском обслуживании. Это означает, что в данных о претензиях будут отсутствовать все тонкости клинической помощи и состояния пациента, которые не изменяют подлежащую оплате сумму.

Учитывая ограничения этих двух источников данных, появился и преобладал один подход. В качестве первого шага преобразуйте неструктурированную заметку в структурированные элементы, а затем дополните данные ЭУЗ данными требований, чтобы создать высококачественную хронологию событий и результатов для пациента. Такое гибридное путешествие пациента дает самую полную картину пациента.

НЮтрон

Исследователи представляют результаты разработки, оценки, развертывания и перспективной оценки NYUTron, системы на основе LLM, которая может интегрироваться в режиме реального времени с клиническими рабочими процессами, сосредоточенными на написании заметок и размещении электронных заказов.

Подход NYU, основанный на языковой модели, состоит из четырех этапов:

  1. Сбор данных
  2. предварительная подготовка,
  3. тонкая настройка и
  4. развертывание.

Рис. 1: Обзор основанного на языковой модели подхода к клиническому прогнозированию.

а. NYU Langone EHR для двух типов наборов данных. Набор данных для предварительной подготовки, NYU Notes, содержит 10 лет стационарных клинических заметок (387 144 пациента, 4,1 миллиарда слов). Существует пять наборов данных для тонкой настройки. Каждый из них содержит стационарные клинические записи за 1–10 лет (55 791–413 845 пациентов, 51–87 миллионов слов) с метками для конкретных задач (2–4 класса).

б. Предварительное обучение LLM, подобного BERT, со 109 миллионами параметров, называемого NYUTron, по всему EHR с использованием задачи MLM для создания предварительно обученной модели для медицинского языка, содержащегося в EHR.

в. Впоследствии доработал предварительно обученную модель для конкретных задач (например, 30-дневный прогноз реадмиссии по всем причинам) и проверил ее на имеющихся ретроспективных данных.

д. Наконец, доработанная модель была сжата в ускоренный формат и загружена в механизм логического вывода, который взаимодействует с NYU Langone EHR для чтения выписных книжек, когда они подписаны лечащими врачами.

Данные

Большой немаркированный набор данных «NYU Notes» включает 7,25 миллиона клинических записей (например, рентгенограммы, историю и физические данные) от 387 144 пациентов в четырех больницах, в результате чего в период с января 2011 года по май 2020 года был собран корпус из 4,1 миллиарда слов. помеченные наборы для тонкой настройки содержат стационарные клинические записи за 1–10 лет (55 791–413 845 пациентов, 51–87 миллионов слов). Все эти помеченные наборы содержат метки, характерные для каждой задачи.

тестовый набор

В тестовый набор для всех 5 заданий входило 2 тестовых набора

  1. случайный набор тестов (клинические заметки, отобранные в то же время, что и обучающие данные) и
  2. временной тестовый набор (клинические заметки, взятые из будущих обучающих данных).

Рис. 2. Общая временная производительность теста по пяти задачам.

а. Эти пять задач включают три клинические задачи и две оперативные задачи.

б1. При прогнозировании повторной госпитализации NYUTron имел медиану AUC 79,9% ± 0,168% с улучшением на 5,36%.

Би 2. При прогнозировании внутрибольничной смертности NYUTron имел медиану AUC 94,9% ± 0,168% с улучшением на 7,43%.

б3. При расчете индекса сопутствующих заболеваний среднее значение AUC в NYUTron составило 89,4% ± 0,275%. Матрица путаницы показана справа.

с1. При бинарном прогнозировании LOS NYUTron имел медиану AUC 78,7% ± 0,179% с улучшением на 12,3% по сравнению со структурированным базовым уровнем.

с2. При прогнозировании отказа в страховании NYUTron имел медиану AUC 87,2% ± 0,246% с улучшением на 14,7%.

Для b,c высота полосы погрешности – это медиана AUC, а полуширина полосы погрешности – 1 стандартное отклонение. Серые точки — это отдельные точки данных из n = 5 экспериментов с разными случайными начальными значениями.

Дополнительные оценки

Было проведено пять дополнительных оценок как в ретроспективных, так и в проспективных условиях:

  1. Сравнение человека с шестью лечащими врачами для прогнозирования повторной госпитализации для 20 пациентов, отобранных из случайной выборки.
  2. Исследование свойств масштабирования NYUTron по отношению к данным, в котором NYUTron и другие модели сравнивались с использованием различного количества точно настроенных точек данных,
  3. Оценка межсайтовой обобщаемости NYUTron с использованием данных предварительной подготовки, точной настройки и тестирования из разных мест,
  4. Проспективное неинтервенционное исследование с одной группой для оценки возможности развертывания NYUTron и (5) качественная оценка группой врачей предполагаемой эффективности NYUTron для оценки клинических последствий.

Тестирование на реальных ретроспективных пациентах

Тест был проведен на 20 пациентах (11 положительных повторных госпитализаций и 9 отрицательных повторных госпитализаций). Для врачей и NYUTron средний показатель ложноположительных результатов (FPR) составлял 11,11%, тогда как средний показатель истинно положительных результатов (TPR) составлял 50% для врачей по сравнению с 81,82% для NYUTron. Врачи получили средний балл F1 62,8 % и существенную дисперсию 22,2 % по сравнению с NYUTron, средний балл F1 которого составил 77,8 %.

Протестировано 4 типа LLM

У NYUTron была самая высокая AUC при точной настройке с полным набором данных (рис. 3b выше) со средним значением AUC 79,87% ± 0,17%, что было аналогично клиническому+веб-вики+био. сильный> AUC 80,14% ± 0,26%. По сравнению с LLM, предварительно обученными неклиническому тексту (web-wiki+bio и web-wiki), медиана AUC NYUTron была на 2,37–3,23 % выше. По сравнению с традиционной моделью, использующей структурированные функции (lace+xgb), у NYUTron показатель AUC был на 5,36 % выше. По сравнению с моделью, использующей встраивание традиционной обработки естественного языка (NLP) (tf-idf+xgb), у NYUTron средний показатель AUC был на 12,8 % выше.

Вполне вероятно, что по мере увеличения размера корпуса LLM будут лучше масштабироваться, улучшая качество результатов. Кроме того, делая их более обобщаемыми.

Предварительная подготовка на большом количестве немаркированных клинических заметок способствует повышению производительности. По сравнению со случайно инициализируемым LLM (random-init), NYUTron учится лучше обобщать на меньшем количестве примеров. Рисунок 3b показывает, что в то время как NYUTron требовалось 10 000 примеров для достижения AUC около 75%, random-init требовалось 100 000 примеров. Мы также наблюдали аналогичную тенденцию в другой задаче клинического прогнозирования: NYUTron работал лучше, чем модель со случайным началом (на 36,83% выше показатель F1) и неклинически предварительно обученные модели (от 2,06% до 3,73% выше показатель F1) в клиническом исследовании. задача распознавания именованных объектов (NER) из конкурса i2b2 2012 года.

Проспективное исследование повторных госпитализаций (показатели в реальной жизни)

Модель была протестирована для проспективных клинических испытаний с января по апрель 2022 года. Заметки были загружены в механизм логического вывода, чтобы читать записи о выписке после того, как их подписали врачи. В общей сложности было использовано 29 286 записей и 3 271 пациент, вернувшийся в течение 30 дней. NYUTron предсказал 2692 из 3271 реадмиссии.

а. У NYUTron показатель AUC составил 78,70 % в проспективном неинтервенционном исследовании с одной группой при отзыве 82,3 % и точности 20,6 %.

б. Группа из шести врачей рассмотрела результаты NYUTron на предмет потенциального клинического воздействия. Из 100 повторных госпитализаций, которые были успешно выявлены NYUTron, 61% были незапланированными повторными госпитализациями, 50% привели бы к штрафу в соответствии с рекомендациями CMS, а 27% можно было предотвратить во время выписки в соответствии с консенсусным мнением многопрофильной комиссии врачи, которые рассмотрели случаи из проспективного испытания.

Выводы

  1. В целом, повторно госпитализированные пациенты, которым прогнозировалась повторная госпитализация, в 6,02 раза чаще умирали в больнице и оставались на 2,93 дня дольше (P ‹ 1/10⁴).
  2. 61% прогнозируемых случаев были незапланированными, и средние прогнозируемые вероятности для этих незапланированных повторных госпитализаций были ниже, чем для запланированных повторных госпитализаций (31,9% ± 31,1% по сравнению с 82,1% ± 27,3%; P ‹ 1/10⁴ )
  3. Среди незапланированных повторных госпитализаций у 19,67% пациентов наблюдались нежелательные явления или смерть при повторной госпитализации, при этом 50% этих событий врачебная комиссия считала предотвратимыми.
  4. 81,9% незапланированных повторных госпитализаций будут оштрафованы в соответствии с рекомендациями Центров услуг Medicare и Medicaid (CMS).
  5. 27 предотвратимых повторных госпитализаций имели Clostridioides difficile энтероколит, заразную бактериальную инфекцию, связанную с оказанием медицинской помощи, от которой 1 из 11 человек старше 65 лет умирает в течение 1 месяца.

Технические детали предварительной подготовки (NVIDIA)

При предварительном обучении использовались 24 графических процессора NVIDIA A100 с 40 ГБ видеопамяти в течение 3 недель, а при тонкой настройке использовались 8 графических процессоров A100 в течение 6 часов на прогон.

Наборы данных для предварительной подготовки (NYU Notes, NYU Notes – Manhattan, NYU Notes – Brooklyn)

Используя эти наборы данных, мы обучили токенизатор заготовки BERT без регистра с размером словаря 50 000 токенов, максимальной длиной последовательности 512 токенов и уникальными токенами [SEP], [PAD ], [UNK], [MASK] и [CLS].

Каждая длинная нота была разделена на неперекрывающиеся фрагменты, которые были меньше максимальной длины последовательности. В частности, мы разделили каждую заметку на предложения с помощью инструментария естественного языка (nltk) 32 и токенизировали каждое предложение. Предложения длиннее 512 токенов были усечены. Затем для всех токенизированных предложений в одной заметке мы объединили их в группы так, чтобы каждая группа имела точно максимальную длину последовательности. Мы отбрасывали любую оставшуюся группу (длиной строго меньше максимальной) длинной ноты.

В качестве базовой модели использовался BERT со 109 миллионами параметров. Заметки Нью-Йоркского университета и цель MLM на 3 недели (96 эпох) на 24 графических процессорах NVIDIA A100, распределенных по трем вычислительным узлам, до тех пор, пока потери при проверке не начнут выходить на плато.

Модель имеет 12 скрытых слоев размерностью 768, по 12 головок внимания на каждом слое. Пакет обучения для каждого устройства размером 64, сохраняется каждые 2000 шагов. Мы использовали оптимизатор AdamW с нулевой избыточностью (улучшенный по сравнению с оптимизатором Adam) с постоянной скоростью обучения 5 × 10–5, смешанной точностью FP16 и распараллеливанием на этапе 2.

Тонкая настройка

Использовался общий шаблон из 10 эпох набора данных со скоростью обучения 2 × 10–5, снижением веса 0,01 и размером пакета для каждого устройства 4. Оптимизированная кросс-энтропийная потеря использовалась с оптимизатором AdamW.

Развертывание

Точно настроенная модель была преобразована в высокопроизводительный формат (Onnx или TensorRT) и загружена в нашу платформу развертывания, механизм логического вывода NVIDIA Triton, который взаимодействует с NYU Langone EHR через HLA7 Fast Health Interoperability Resources (FHIR). Он состоял из модифицированной версии NVIDIA Triton Inference Server, которую мы назвали NYUTriton (произносится как «питание», потому что это полезно для системы здравоохранения). NYUTriton размещается на выделенном сервере логических выводов, который состоит из AMD Threadripper 3960X (24 ядра, 3,8 ГГц), двух графических процессоров RTX 3090 и 128 ГБ системной памяти DDR5, приобретенных у Lambda Labs.

Доступность данных (не общедоступная — ограниченная исследовательская лицензия)

Клинические данные, используемые для предварительной подготовки, тонкой настройки, проверки и тестовых наборов, были собраны из EHR системы здравоохранения NYU Langone, поддерживаемой командой NYULH Datacore. Текстовые данные были лишены функций форматированного текста и были непосредственно включены в набор данных «как есть» и дополнены структурированными функциями, где это было указано. Эти данные состоят из производственной медицинской документации NYU Langone и не могут быть общедоступными. Исследователи могут получить ограниченный обезличенный набор данных (или тестовую подгруппу) из NYU Langone Health System по разумному запросу и при условии получения одобрения местных и национальных этических органов. Также мы использовали общедоступный i2b2–2012.

Код

Код доступен на https://github.com/nyuolab/NYUTron. Код препроцессинга для i2b2–2012 доступен по адресу https://github.com/nyuolab/i2b2_2012_preprocessing).

Если вы дочитали до этого момента — Спасибо! Ты герой! Я стараюсь держать своих читателей в курсе интересных событий в мире ИИ, поэтому, пожалуйста, 🔔 хлопайте| Подписаться | Подписаться🔔

Стать участником по рефералу: https://ithinkbot.com/membership

Найдите меня на Linkedin https://www.linkedin.com/in/mandarkarhade/







AlphaDev: алгоритм сортировки «Подержи мое пиво
AlphaDev обнаружил более быстрый алгоритм сортировки, способ упорядочения данных. Миллиарды людей используют эти алгоритмы…ithinkbot.com»