Описательное приложение Arimo с расширением для глубокого обучения показывает путь к автоматизации 200 миллиардов долларов в урегулировании требований Medicare

Написано Кристофером Смитом. Первоначально опубликовано на https://arimo.com/blog.

Модель глубокого обучения для данных о претензиях Medicare с точностью 85,6 % предсказывает общую переплату по 85 миллионам претензий и визуально отображает, какие претензии, скорее всего, являются мошенническими.

Когда поставщик медицинских услуг подает заявку в Medicare, Medicare редко выплачивает полную сумму. На самом деле, когда Центр услуг Medicare и Medicaid (CMS) опубликовал свой агрегированный набор данных, содержащий 18 миллионов строк данных о претензиях Medicare в 2013 году, данные показали, что в среднем Medicare платит только около трети (37%) суммы счета. Тем не менее, хотя эти 37% могут быть средними, они не универсальны. Доводы в пользу лучшей корректировки требований Medicare хорошо известны, так же как широко освещаются громкие случаи мошенничества с Medicare. Согласно исследованию The Economist, Medicare и Medicaid платят почти 1 трлн долларов в год, из которых около 100 млрд долларов являются мошенническими. И трое из 20 крупнейших получателей платежей Medicare, выявленных в данных CMS (в совокупности более 75 миллионов долларов) — доктора. Саломону Э. Мельгену, Асаду У. Камару и Фариду Фате предъявлены обвинения в мошенничестве со стороны Федеральной программы медицинской помощи.

Разделение требований на две группы — мошеннические и законные — поднимает вопрос о том, имеют ли данные в одной группе больше общего с ее собственными членами, чем с членами другой группы. Если ответ «да», то с помощью нейронной сети можно также выделить вероятные мошеннические заявления на карте кластера. Кроме того, если соответствующая сумма корректировки претензии неизвестна, можно также оценить ее с высокой точностью, посмотрев на ее ближайших соседей на карте — независимо от того, является ли претензия законной или нет. Это предпосылка, которую мы протестировали с помощью программного обеспечения Arimo Predictive Engine и Narratives для построения модели глубокого обучения (DL) набора данных CMS. Другими словами, могут ли все усилия, затрачиваемые на корректировку требований, быть выполнены машиной намного быстрее и с гораздо большей точностью?

Переменная для моделирования — коэффициент переплаты

Набор данных CMS за два года, с 2012 по 2013 год, содержит личную информацию о поставщиках медицинских услуг и сводную статистику, касающуюся требований Medicaid, в том числе:

  1. Сумма, выставленная поставщиками услуг Medicare
  2. Сумма, выплаченная Medicare
  3. К какому лечению относится претензия
  4. и многое другое.

Если мошеннические претензии последовательно отличаются от законных претензий, основанных на определенных правилах (даже если они неизвестны), то в данных могут быть шаблоны, которые предполагают существование таких правил. Можно было бы ожидать, например, что сумма корректировки — т. е. сумма, которую платит Medicare за вычетом того, что ей выставлено в счете, — должна быть выше для мошеннических требований, чем для законных требований. Как уже отмечалось, в среднем Medicare оплачивает 0,37 страхового случая, поэтому средняя корректировка в сторону понижения, называемая коэффициентом переплаты, составляет 0,63 или:

Коэффициент переплаты = 1 — (общая сумма оплаченных/всего отправленных) = 0,63.

Таким образом, одно правило, которое нужно искать, заключается в том, что разные претензии имеют разные коэффициенты переплаты в зависимости от выставленных сумм. Здесь мы сравниваем распределение коэффициентов переплаты по общему количеству заявок (строк CMS) по сравнению с суммами заявок:

Два графика (слева) выглядят очень по-разному. Более высокие суммы требований имеют более высокие коэффициенты переплаты, что, возможно, предполагает правило убывающей доходности для счетов, «раздутых» выше определенного уровня. Кроме того, обратите внимание, что оба графика становятся прерывистыми примерно на отметке 0,2, что указывает на то, что здесь действует какое-то другое правило. Хотя эти правила неизвестны, есть свидетельства того, что они существуют и, следовательно, потенциально могут быть смоделированы, чтобы помочь отличить мошеннические претензии от законных. Дальнейший анализ выявляет другие свидетельства существования скрытых правил.

Обратите внимание, например, насколько больше двум конкретным типам поставщиков медицинских услуг платили в случаях, когда Medicare мало или вообще не корректировала требования (коэффициент переплаты ‹0,2). Из 20 ранжированных категорий больше всего платили внутренним врачам и семейной практике — почти 750 миллионов долларов против менее 300 миллионов долларов за оставшиеся 18 вместе взятых.

Еще одно правило, по-видимому, различает отдельных поставщиков по уплаченной сумме. . .

И тем более, если, опять же, учитывать только низкие коэффициенты перезарядки — 0,2 и меньше — как на этом графике:

С $22 млн доктор Кокерилл является четвертым по величине получателем Medicare, и все же $10 млн его исков практически не компенсируются Medicare. Всем врачам из этого списка Medicare платила большие и практически неоспоримые суммы. В совокупности иски с завышенной ценой менее 20% получили в общей сложности 3 миллиарда долларов.

Что показала модель глубокого обучения

Чтобы использовать эти типы базовых правил, мы создали модель глубокого обучения для прогнозирования коэффициента переплаты на основе данных о претензиях, исключая сумму, которую заплатила Medicare. Мы использовали следующую сетевую архитектуру для обучения и тестирования нейронной сети на наборе данных CMS:

  • Размер тренировки: 10M
  • Размер тестирования: 2,5 м
  • Входные нейроны: 106
  • Выходные нейроны: 1
  • Скрытые слои: 3
  • Скрытые блоки: 1024 х 1024 х 1024
  • Время выполнения: ~ 10 часов

Модель достигла точности 85,6%, что подтверждает, что машина действительно может выполнять корректировку требований Medicare с таким уровнем точности, что составляет 200 миллиардов долларов в виде сокращенных платежей при значительном снижении затрат на персонал.

Отображение случайной выборки данных о претензиях также показывает, как часто претензии с высокой корректировкой группируются. Это означает, что при наличии претензии, соответствующая сумма корректировки которой неизвестна, мы можем оценить ее с высокой точностью, взглянув на ее ближайших соседей:

Этот вид анализа можно использовать для того, чтобы отличить обычные претензии от мошеннических, и его можно применять к определенному региону, например, во Флориде, здесь:

Опять же, мы видим, что заявления о высоких корректировках, как правило, группируются вместе. Имея новое необработанное заявление, мы могли бы поместить его в эту визуализацию, чтобы увидеть, в какой компании оно находится.

Дело не только в мошенничестве с Medicare

Но модель сделала больше, чем просто подтвердила, что машинное обучение может корректировать требования Medicare намного быстрее и точнее, чем существующие методы. Это также подтвердило, что часто существуют скрытые правила для различения членов больших наборов данных и что эти правила можно моделировать и применять, даже если они не известны конкретно. Кроме того, это показывает, что это может принести значительную финансовую отдачу — в бизнес-кейсах, которые варьируются от обнаружения мошенничества до присвоения кредитных рейтингов, сегментации рынка и многого другого.

Ключевым моментом является Глубокое обучение или, точнее, экосистема, в которой сами методы Глубокого обучения могут надежно и экономично применяться на практике. Поиск 200 миллиардов долларов занял всего 10 часов. И многое другое, откуда это взялось.