В отрасли здравоохранения все еще так много неструктурированных текстовых данных, которые можно использовать

Мотивация

Здравоохранение является одной из областей, где «воздействие» очевидно и конкретно. Вы видите спасение человеческих жизней, улучшение качества жизни и поиск лекарств от болезней, которые десятилетиями беспокоили различные группы населения. Существует множество отчетов и документов, в которых обсуждается растущий размер рынка медицинской информатики и искусственного интеллекта (ИИ). Один из них из Markets and Markets, исследовательской фирмы B2B, подсчитал, что размер рынка глобальной обработки естественного языка (NLP) в здравоохранении и медико-биологических науках в этом году составил 1,8 миллиарда долларов. В нем также упоминается, что рынок, по прогнозам, вырастет и достигнет 4,3 миллиарда долларов к 2026 году. Естественно, усилия по внедрению самых современных технологий в эту область предпринимаются, по крайней мере, три десятилетия назад. На мой взгляд, в сфере здравоохранения еще много неиспользованных областей, где наука о данных, искусственный интеллект и новые технологии могут сыграть ключевую роль в снижении затрат, повышении эффективности и прозрачности процессов и улучшении лечения и диагностики. В частности, методы NLP становятся более актуальными из-за огромного количества неструктурированных текстовых данных, которые генерируются в здравоохранении.

В этом посте я исследую различные источники данных, которые можно использовать в здравоохранении, приложения того, как НЛП используется и может быть использовано в различных операциях, и, наконец, какие преимущества можно получить, используя НЛП в здравоохранении. Мы надеемся, что этот пост будет полезен для тех, кто рассматривает возможность получения степени в области информатики здравоохранения, или для всех, кто хочет провести исследование или продолжить побочный проект, связанный с наборами данных, связанных со здоровьем.

Источники данных в здравоохранении

ЭМИ и ЭУЗ

Электронные медицинские карты (EMR) и электронные медицинские карты (EHR) являются классическими источниками данных в здравоохранении. Базы данных MSIS и TMSIS, например, управляются и администрируются Администрацией социального обеспечения США (SSA). Они содержат информацию о получателях Medicaid, их демографическую информацию и различные показатели здоровья. Конечным недостатком является сложность доступа к данным из-за ограничений безопасности и конфиденциальности. Обычно эти данные хранятся в безопасных анклавах, доступ к которым разрешен только авторизованным пользователям с использованием специальных методов аутентификации. Даже этим авторизованным пользователям часто предписано посещать и оставаться в центрах обработки данных, где эти данные защищены, всякий раз, когда они хотят работать с данными.

Другие неструктурированные клинические данные

Другие клинические данные, помимо записей EMR и EHR, включают записи врачей и писарей, медицинские изображения, записи о заказах на лекарства и различные административные записи, которые создаются как побочный продукт повседневных клинических операций. Эти документы содержат много естественного языка, что делает методы НЛП более полезными. Однако они часто неструктурированы, поэтому вам потребуется уделить внимание деталям, чтобы убедиться, что информация, анализируемая из этих документов в текст, читаемый компьютером, является точной.

Страховые данные

Страховые данные включают в себя информацию о конкретных полисах, которые влечет за собой каждый страховой продукт, и записи о претензиях. Анализ комбинации страховых данных с другими медицинскими записями позволил бы более индивидуально подходить к лечению, а также предлагать пациентам страховые предложения.

Данные цензуры

Благодаря появлению технологии Интернета вещей (IoT) данные, полученные из приложений для мониторинга здоровья (например, FitBit), теперь синхронизируются с облаками, и компании и учреждения имеют к ним прямой доступ. Это тип больших данных, которых раньше не было. Тем не менее, пользователи должны быть более осторожными, делая предположения о данных, потому что они более подвержены различным статистическим ошибкам по сравнению с данными, собранными в условиях контролируемого эксперимента или опроса. Например, данные, собранные с помощью FitBit, могут не отражать общую совокупность интересов, о которой исследователи хотели бы узнать больше, потому что пользователи таких приложений могут иметь определенную склонность, отличную от средней совокупности.

Социальные медиа

Социальные сети — еще один ценный источник данных, ранее недоступный исследователям. Твиты, комментарии в сообщениях Meta и Instagram, текстовые данные из Reddit и Buzzfeed — все это примеры данных социальных сетей. Они ценны тем, что иногда действуют как предвестники вспышек заболеваний, насилия, проблем с психическим здоровьем и т. д. или указывают на определенное общественное мнение по определенным темам. Посмотрите, например, эту статью, в которой обсуждаются методы использования данных социальных сетей в режиме реального времени для обнаружения и удаленного мониторинга исходов ВИЧ. [2]

Применение НЛП в здравоохранении и получение выгод

Снижение стоимости

Многие пациенты полагаются на телефонные звонки, чтобы получить диагноз или связаться с клиническими учреждениями. Огромные затраты возникают в процессе. Мобильные приложения или чат-боты, созданные с использованием методов НЛП и глубокого обучения, могут решить эту проблему.

Повышение эффективности административных вопросов

Методы НЛП можно использовать для извлечения информации из врачебных заметок, документов о медицинской политике и т. д., что обеспечит эффективное выставление счетов, точное предварительное одобрение и оценку медицинской политики [3,4,5,6].

НЛП также может быть полезно для организации различных документов. Во время клинических процессов генерируются тонны медицинских документов. Скажем, врачи или медицинские исследователи хотят сослаться на все записи, связанные с болезнью X за последние 8 лет, тогда чрезвычайно сложно найти эти ресурсы, если не существует системы «категоризации и маркировки документов». Кодификация медицинских процедур и методов лечения также ценна. Вместо того, чтобы обращаться к сложной терминологии, использование специальных «кодов» поможет врачам, страховым компаниям и административному персоналу легче общаться друг с другом. В этих случаях могут пригодиться методы НЛП, включая тематическое моделирование и корпусную классификацию. Наконец, когда важны оперативность и эффективность, необходимо обобщать документы. Исследования НЛП, связанные с методами обобщения корпуса, которые извлекают суть отрывка текста, достигли большого прогресса за последние два десятилетия и, таким образом, могут быть полезны для обобщения более профессионального содержания, такого как заметки врача.

Оптимизация лечения

В основном врачи должны иметь возможность оптимизировать лечение для отдельных пациентов в двух аспектах: индивидуальные особенности и детали того, как они переносят заболевание. Чтобы получить эту информацию, должны состояться откровенные беседы между врачами и пациентами. Тем не менее, эти разговоры часто не происходят из-за различных причин, от страха открыться незнакомому человеку до страха быть осужденным и т. д. Пациенты иногда чувствуют себя более непринужденно, разговаривая с людьми, которым они доверяют или с которыми провели долгое время, включая близких друзей и семью. . Но что еще более важно, они часто высказываются и делятся своими искренними чувствами и опытом в социальных сетях. В некотором смысле, социальные сети превратились в пространство, похожее на дневник, где люди пишут о своей повседневной жизни и делятся своими приземленными мнениями, чтобы заручиться поддержкой и сочувствием других пользователей сети. Вот почему социальные сети могут быть очень ценными.

Мы можем анализировать сообщения в социальных сетях и комментарии, сделанные пациентами, используя методы НЛП, и выводы из этого анализа помогают врачам определять положительные результаты, которые следует выделить, и отрицательные результаты, которые необходимо отслеживать. [5] Кроме того, сравнение того, что пациенты говорят своим врачам, с тем, что они говорят людям из своего близкого окружения, может помочь врачам определить, как они могут улучшить общение между пациентом и врачом.

Предотвращение

Многие новые формы неструктурированных данных, такие как публикации и комментарии в социальных сетях, часто могут указывать на более серьезные тенденции в области здравоохранения. Они могут варьироваться от моделей злоупотребления опиоидами в определенных юрисдикциях до повышения риска самоубийств в определенных возрастных группах округа. Например, методы НЛП, применяемые к данным социальных сетей, оказались эффективными способами скрининга суицидальных рисков и вспышек заболеваний. Взгляните на эту бумагу. [7]

Мы рассмотрим еще один пример болезни Кавасака (БК). CDSS (компьютеризированные системы поддержки принятия клинических решений) с поддержкой НЛП уже продемонстрировали свой потенциал для предупреждения клиницистов о необходимости учитывать болезнь Кавасаки (БК) при неотложных состояниях. [3,4,5,6] Этот инструмент НЛП был обучен на 22 резюме пациентов отделения неотложной помощи, которым позже был поставлен диагноз БК. Затем он был применен к 253 записям отделения неотложной помощи для детей, у которых был диагностирован либо БК, либо другое лихорадочное заболевание. Инструмент набрал 93,6% чувствительности и 77,5% специфичности для задачи выявления пациентов с высокой вероятностью БК.

Предвзятость

Конечно, НЛП — не тот благочестивый метод, который решает все проблемы в сфере здравоохранения. Одна важная проблема, которую нам нужно учитывать и с которой нужно быть осторожным, — это «алгоритмическая предвзятость». Во многих источниках клинических данных, которые мы будем использовать для НЛП, должны присутствовать множественные виды предубеждений. Предубеждения врачей, например, будут отражены в заметках врачей. Естественно, результаты и анализ, полученные в результате использования таких источников данных, также будут в некоторой степени содержать те же погрешности, что и данные. В большинстве случаев такие предубеждения будут усиливаться. Вот почему во многих исследованиях взаимодействия человека и компьютера (HC) все больше внимания уделяется тому, как сделать алгоритмы более прозрачными, объяснимыми и свободными от предвзятости, которая проникает в используемые данные.

Рекомендации

[1] НЛП на рынке здравоохранения и наук о жизни (2021), Markets and Markets

[2] С. Янг, К. Риверс, Б. Льюис, Методы использования технологий социальных сетей в режиме реального времени для выявления и удаленного мониторинга исходов ВИЧ (2014), PubMed

[3] А. Кулкарни,Текстовая аналитика и НЛП в здравоохранении: приложения и варианты использования (2020 г.), блог компании Lexalytics.

[4] С. Рангасами, Р. Наденичек, М. Раясам, А. Создатель, Обработка естественного языка в здравоохранении (2018), Mckinsey Company Blog

[5] Р. Аттри, А. Левит, Перспективы обработки естественного языка в здравоохранении (2018), Медицинский журнал Университета Западного Онтарио.

[6] 14 лучших вариантов использования обработки естественного языка в здравоохранении, Maruti Tech Labs.

[7] Г. Копперсмит, Р. Лири, П. Кратчли и А. Файн, Обработка естественного языка в социальных сетях как скрининг риска самоубийства (2018 г.), Biomedical Informatics Insights.

об авторе

Ученый по данным. Работает научным сотрудником в экономической лаборатории системы административной документации уголовного правосудия (CJARS) Мичиганского университета. Поступающий аспирант в области информатики. Он любит спорт, тренировки, готовит вкусную азиатскую еду, смотрит дорамы и сочиняет/исполняет музыку. Загляните на его сайт!