В сфере здравоохранения США страховые компании и врачи играют важную роль — как в обеспечении качественного ухода, так и в своевременном возмещении расходов пациентов. Кроме того, для пациентов важна быстрая обработка медицинских карт, тем более что расходы на здравоохранение иногда могут стать очень высокими. Во многих случаях обработка документов передается сторонним организациям для ручного чтения сотен страниц и извлечения медицинских кодов.

Медицинское кодирование само по себе является огромной отраслью, но при этом очень фрагментированным рынком. Численность медицинских кодирующих организаций часто может исчисляться тысячами. Хотя модель работает достаточно хорошо до определенного уровня, выполнение дополнительной работы становится довольно сложным из-за множества факторов, таких как; затраты на ресурсы, ценовое давление и сжатые сроки. Среднее количество медицинских карт, обрабатываемых в час, может колебаться от 2 до 5.

Медицинское кодирование обычно выполняется в двух форматах — отсканированных PDF/TIFF и XML. Последний из новейших систем электронных медицинских карт (EMR) постепенно получает признание. Извлечение данных из XML-файлов относительно проще, поскольку существует ограниченное количество форматов, а захваченные данные можно легко проанализировать.

Это подводит нас к проблемам с отсканированными документами;

  • Существует множество шаблонов, различающихся по врачам и страховым компаниям.
  • Оптическое распознавание символов может быть довольно шумным, необходимо создавать дополнительные алгоритмы для фильтрации недопустимых документов.
  • Есть несколько способов, которыми врач может написать болезнь. Например, высокое кровяное давление также может быть записано как HBP. Также должны быть созданы алгоритмы для сопоставления этих вариаций.

Подход к проблеме

Один из наших клиентов, работающий в сфере оформления документов для страховых компаний, обратился к нам с четкой постановкой задачи — можете ли вы повысить производительность моих кодировщиков?

Сложная задача должна была быть разбита на несколько частей. Один-единственный подход может не сработать, поэтому требовался комплекс подходов для уменьшения шума сканирования, преобразования с помощью оптического распознавания символов, проверки документов, извлечения информации, извлечения кодов заболеваний и механизма рекомендаций.

У клиента была существующая база знаний, отображающая названия болезней и соответствующие коды МКБ 9. Мы добавили больше в базу знаний с веб-сайта Центров услуг Medicaid и Medicare (CMS).

Несколько алгоритмов были подготовлены для следующих задач;

  1. Очистка отсканированных документов и извлечение действительных документов
  2. Механизм рекомендаций для точного предсказания кода
  3. Обучение с подкреплением для всего рабочего процесса для повышения точности

В конечном итоге мы подготовили доказательство концепции со следующими функциями;

  • Позволяет использовать как PDF-файлы, так и XML-файлы (форматы ограничены теми, которые были предоставлены ранее на этапе)
  • Извлечение заболеваний и прогнозирование соответствующих кодов МКБ
  • Встроенная система рекомендаций для упреждения кодов
  • Редактируемые значения и возможность добавлять/удалять отображаемые записи

Точность нашего алгоритма составила 97% для слепых наборов со встроенной системой тегов и рекомендаций. Для сравнения, золотой стандарт для событий BioNLP для «увиденных данных» составляет около 85%.

Общий конвейер НЛП выглядел примерно так;

БОЛЬШЕ РАБОТЫ

Мы все еще работаем над алгоритмами обучения и надеемся добиться стабилизации точности в будущем. Что касается интеллектуальных структур данных, можно сделать больше. Кроме того, для улучшения рекомендательных систем необходимо было бы включить словари большего размера.

Есть еще предложения? Пожалуйста, оставьте свои комментарии ниже!