Искусственный интеллект с его широким применением и глубоким пониманием алгоритмов круто охватывает все государственные секторы. Текущее десятилетие продемонстрировало огромные прорывы в исследованиях в области машинного обучения для сектора здравоохранения. Хотя эти разработки можно разделить на две области, а именно ИИ на основе изображений (компьютерное зрение) и ИИ на основе текста (обработка естественного языка).

MIMIC (витрина медицинской информации для интенсивной терапии): это база данных 61 523 пациентов, находившихся в отделениях интенсивной терапии медицинского центра Beth Israel Deaconess в период с 2001 по 2012 год. Она включает 53 432 взрослых и 8100 новых рожденные дети. Этот в значительной степени общедоступный набор данных (6,2 ГБ) состоит из лабораторных измерений, заметок опекунов, процедур, лекарств, отчетов о смертности и рентгенографии грудной клетки.

Обновление (MIMIC-II против MIMIC-III):

Поскольку MIMIC была одной из первых доступных баз данных, многие исследовательские публикации основаны на MIMIC-II. Чтобы связать его с текущими данными, нам нужно понять, как он был обновлен.

MIMIC-III — это расширение старого MIMIC-II (ранее полностьюмногопараметрический интеллектуальный мониторинг Intensive Care). MIMIC-II был набором данных за период с 2001 по 2008 год, который позже был объединен с дополнительными данными за 2008–2012 годы. Этот переход был выполнен в нескольких запросах, некоторые элементы, такие как D_MEDITEMS, D_IOITEMS, D_CHARTITEMS, были объединены в D_ITEMS. Поступления и увольнения были отмечены помечены с компонентом времени. Более того, CENSUSEVENTS заменили на TRANSFERS, DEMOGRAPHIC_DETAIL объединили в ADMISSIONS DRGEVENTS, переименовав в DRGCODES, ICD9 переименовали в DIAGNOSES_ICD и так далее.

Как получить доступ?

База данных MIMIC регулярно обновляется на основе последних данных. MIMIC-III v 1.4 — это последняя версия, которую можно получить в сети Physio. Эти электронные медицинские карты (EHR) обезличены для обеспечения конфиденциальности пациентов. Процедура приобретения базы данных и использования ее для исследований выглядит следующим образом.

  1. Прохождение курса CITI Исследование только данных или образцов, который обеспечивает определение законов регулирования данных для исследовательских целей.

2. Регистрация учетной записи на https://physionet.org.

3. подайте заявку на авторизованный доступ. Не забудьте предоставить отчет о завершении CITI.

4. После предоставления доступа вы можете загрузить 26 файлов CSV, разделенных запятыми, в зависимости от цели использования. Вы можете прочитать содержимое каждого файла здесь перед его загрузкой.

5. Вы можете получить доступ к демонстрационному репозиторию 100 пациентов, если вам не удастся получить отчет CITI Completion здесь

Международная классификация болезней (МКБ):

МКБ — это система здравоохранения, поддерживаемая Всемирной организацией здравоохранения (ВОЗ). Эта система относится к различным состояниям здоровья, таким как признаки, симптомы, ненормальные обстоятельства и травмы, к цифровому коду знака. Эта система кодирования является иерархической с основным кодом для болезней и его дочерними кодами для вариантов. МКБ-9 используется в MIMIC для обозначения состояния. МКБ-11 утверждена и вступит в силу с января 2022 года. МКБ-10 широко используется во многих странах, поскольку доступна на нескольких языках.

Наиболее часто используемые коды в MIMIC: 427.31 Мерцательная аритмия, 584.9 Острая почечная недостаточность, 428.9 Застойная сердечная недостаточность и 401.9 Неуточненная эссенциальная гипертензия.

Иерархические идентификаторы:

Эта информация общественного здравоохранения обычно поддерживается в статическом и динамическом типах.

Статический:

Subject_ID: это основная информация о пациенте, указанная в таких полях, как Дата рождения (DOB), Дата смерти (DOD), DOD_HOSP и DOD_SSN, которая указана в таблице пациентов.

HADM_ID: это данные, основанные на поступлении пациента в больницу, включая время госпитализации, время смерти, время выписки и тип госпитализации.

ICUSTAY_ID: это данные, когда пациент прошел процедуру. Эта информация сообщается как ICU InTime, ICU OutTime, First Care Unit и Last Care Unit.

Динамический:

Это периодически обновляемые записи, такие как артериальное давление, лекарства, процедуры, лабораторные события, отчеты по микробиологии. Эти данные, полученные в больнице, и данные, полученные в отделении интенсивной терапии, использовались во многих алгоритмах машинного обучения в качестве функции. Вы можете найти несколько перечисленных публикаций здесь.

МИМИКА-CXR-JPG:

Компьютерное зрение имеет долгую историю классификации медицинских заболеваний на основе клеточных изображений и молекулярных структур. В частности, рентгеновские лучи играют огромную роль в проблемах костей, сердца, репродуктивной системы и легких. Целью этой базы данных является автоматизация рентгенографии грудной клетки при выявлении сердечно-легочных заболеваний. Это еще один важный набор данных MIMIC, особенности которого не идентифицируются в соответствии с правилами HIPPA. Набор данных содержит 377 110 изображений в формате JPG и структурированные метки, полученные из 227 827 рентгенологических отчетов с произвольным текстом, связанных с этими изображениями.

Соответствующие наборы данных:

Существует давняя область исследований в области биохимии и генетики, основанная на медицинских показаниях. На health-data доступно около 221 набора данных.

Особая благодарность: Джузеппе Риццо за консультации.

Ссылки:

https://mimic.physionet.org/about/publications/

https://github.com/MIT-LCP/мимик-код

https://it.wikipedia.org/wiki/Classificazione_ICD