Искусственный интеллект с его широким применением и глубоким пониманием алгоритмов круто охватывает все государственные секторы. Текущее десятилетие продемонстрировало огромные прорывы в исследованиях в области машинного обучения для сектора здравоохранения. Хотя эти разработки можно разделить на две области, а именно ИИ на основе изображений (компьютерное зрение) и ИИ на основе текста (обработка естественного языка).
MIMIC (витрина медицинской информации для интенсивной терапии): это база данных 61 523 пациентов, находившихся в отделениях интенсивной терапии медицинского центра Beth Israel Deaconess в период с 2001 по 2012 год. Она включает 53 432 взрослых и 8100 новых рожденные дети. Этот в значительной степени общедоступный набор данных (6,2 ГБ) состоит из лабораторных измерений, заметок опекунов, процедур, лекарств, отчетов о смертности и рентгенографии грудной клетки.
Обновление (MIMIC-II против MIMIC-III):
Поскольку MIMIC была одной из первых доступных баз данных, многие исследовательские публикации основаны на MIMIC-II. Чтобы связать его с текущими данными, нам нужно понять, как он был обновлен.
MIMIC-III — это расширение старого MIMIC-II (ранее полностьюмногопараметрический интеллектуальный мониторинг Intensive Care). MIMIC-II был набором данных за период с 2001 по 2008 год, который позже был объединен с дополнительными данными за 2008–2012 годы. Этот переход был выполнен в нескольких запросах, некоторые элементы, такие как D_MEDITEMS, D_IOITEMS, D_CHARTITEMS, были объединены в D_ITEMS. Поступления и увольнения были отмечены помечены с компонентом времени. Более того, CENSUSEVENTS заменили на TRANSFERS, DEMOGRAPHIC_DETAIL объединили в ADMISSIONS DRGEVENTS, переименовав в DRGCODES, ICD9 переименовали в DIAGNOSES_ICD и так далее.
Как получить доступ?
База данных MIMIC регулярно обновляется на основе последних данных. MIMIC-III v 1.4 — это последняя версия, которую можно получить в сети Physio. Эти электронные медицинские карты (EHR) обезличены для обеспечения конфиденциальности пациентов. Процедура приобретения базы данных и использования ее для исследований выглядит следующим образом.
- Прохождение курса CITI Исследование только данных или образцов, который обеспечивает определение законов регулирования данных для исследовательских целей.
2. Регистрация учетной записи на https://physionet.org.
3. подайте заявку на авторизованный доступ. Не забудьте предоставить отчет о завершении CITI.
4. После предоставления доступа вы можете загрузить 26 файлов CSV, разделенных запятыми, в зависимости от цели использования. Вы можете прочитать содержимое каждого файла здесь перед его загрузкой.
5. Вы можете получить доступ к демонстрационному репозиторию 100 пациентов, если вам не удастся получить отчет CITI Completion здесь
Международная классификация болезней (МКБ):
МКБ — это система здравоохранения, поддерживаемая Всемирной организацией здравоохранения (ВОЗ). Эта система относится к различным состояниям здоровья, таким как признаки, симптомы, ненормальные обстоятельства и травмы, к цифровому коду знака. Эта система кодирования является иерархической с основным кодом для болезней и его дочерними кодами для вариантов. МКБ-9 используется в MIMIC для обозначения состояния. МКБ-11 утверждена и вступит в силу с января 2022 года. МКБ-10 широко используется во многих странах, поскольку доступна на нескольких языках.
Наиболее часто используемые коды в MIMIC: 427.31 Мерцательная аритмия, 584.9 Острая почечная недостаточность, 428.9 Застойная сердечная недостаточность и 401.9 Неуточненная эссенциальная гипертензия.
Иерархические идентификаторы:
Эта информация общественного здравоохранения обычно поддерживается в статическом и динамическом типах.
Статический:
Subject_ID: это основная информация о пациенте, указанная в таких полях, как Дата рождения (DOB), Дата смерти (DOD), DOD_HOSP и DOD_SSN, которая указана в таблице пациентов.
HADM_ID: это данные, основанные на поступлении пациента в больницу, включая время госпитализации, время смерти, время выписки и тип госпитализации.
ICUSTAY_ID: это данные, когда пациент прошел процедуру. Эта информация сообщается как ICU InTime, ICU OutTime, First Care Unit и Last Care Unit.
Динамический:
Это периодически обновляемые записи, такие как артериальное давление, лекарства, процедуры, лабораторные события, отчеты по микробиологии. Эти данные, полученные в больнице, и данные, полученные в отделении интенсивной терапии, использовались во многих алгоритмах машинного обучения в качестве функции. Вы можете найти несколько перечисленных публикаций здесь.
МИМИКА-CXR-JPG:
Компьютерное зрение имеет долгую историю классификации медицинских заболеваний на основе клеточных изображений и молекулярных структур. В частности, рентгеновские лучи играют огромную роль в проблемах костей, сердца, репродуктивной системы и легких. Целью этой базы данных является автоматизация рентгенографии грудной клетки при выявлении сердечно-легочных заболеваний. Это еще один важный набор данных MIMIC, особенности которого не идентифицируются в соответствии с правилами HIPPA. Набор данных содержит 377 110 изображений в формате JPG и структурированные метки, полученные из 227 827 рентгенологических отчетов с произвольным текстом, связанных с этими изображениями.
Соответствующие наборы данных:
Существует давняя область исследований в области биохимии и генетики, основанная на медицинских показаниях. На health-data доступно около 221 набора данных.
Особая благодарность: Джузеппе Риццо за консультации.
Ссылки:
https://mimic.physionet.org/about/publications/