Множественная линейная регрессия с помощью Sklearn - закодированный пример

По данным последней переписи населения, 8,8% жителей США не имеют медицинской страховки. Это 28 миллионов человек, которые могут получить некачественную медицинскую помощь или получить отказ из-за отсутствия статуса. Поскольку в США нет национализированного здравоохранения, граждане полагаются на медицинское страхование для покрытия медицинских расходов. Как частные компании, так и государственные системы здравоохранения, такие как Medicare и Medicaid, предлагают широкий спектр видов страхования. До принятия Закона о доступном медицинском обслуживании (ACA) в 2013 году процент незастрахованных составлял 18%.

Почему это проблема?

Для пациента отсутствие страховки означает, что вам могут отказать в оплате из-за вашей неспособности платить или вы можете получить некачественную медицинскую помощь (меньше анализов, меньше внимания со стороны врача и т. Д.). Если причина серьезная, возможно, вам придется накопить безнадежный долг (сознательно используя кредит, который вы не сможете погасить), чтобы получить доступ к медицинской помощи. С точки зрения врача, вы должны уравновесить этические последствия отказа пациентам из-за отсутствия финансов и шаги, которые вам, возможно, придется предпринять для уменьшения их бремени, например, страхование гонораров, преувеличение симптомов или отправка их в альтернативное учреждение, финансируемое государством.

Сбор и подготовка данных

Я объединил четыре набора данных для этого проекта, чтобы скрыть некоторые из предполагаемых мной функций. Я начал с набора показателей здоровья сообщества на сайте HealthData.gov. Затем я включил несколько наборов данных из Бюро переписи населения, чтобы получить средний доход домохозяйства (1), демографические данные (2) и разбивку между сельскими и городскими районами (3).

Я рассчитал недостающие значения для показателей здоровья населения каждого округа на основе среднего значения для соответствующего штата. Мне пришлось опустить несколько строк из-за того, что в некоторых из четырех наборов территории Соединенных Штатов рассматриваются как эквивалент округа, а в некоторых удаленных округах не собираются данные.

Наконец, были проведены статистические тесты, чтобы выявить некоторые различия между сельскими и городскими округами. Уровень незастрахованного, среднего дохода домохозяйства, наличие общинных центров здоровья и наличие недостаточного медицинского обслуживания в этом округе существенно различались между сельскими и городскими округами.

Приступая к моделированию

Это после того, как мы очистили и обработали наши данные. Полную записную книжку можно найти здесь.

Таким образом, наша метрика R² составляет около 0,4. Это кажется довольно низким, правда? Что ж, для такого проекта в области социальных наук это неплохо! Откровенно говоря, моделировать процесс принятия решений человеком действительно сложно! Хотя мы не можем сказать, что у нас есть все ответы, эта модель все же позволит нам определить некоторые важные факторы, влияющие на процент незастрахованных.

Изучение коэффициентов

Итак, давайте посмотрим на наши коэффициенты. Поскольку мы масштабировали наши непрерывные переменные, мы можем интерпретировать эти коэффициенты относительно друг друга. Синтаксис: «Для каждого увеличения единицы на одно стандартное отклонение от среднего в« Elderly_Medicare »мы ожидаем увеличения на 6,5% доли незастрахованных».

Мы видим, что пожилые люди, получающие медицинскую помощь, соотношение врачей к 100 тысячам населения и количество курильщиков были самыми большими положительными факторами (то есть они увеличили процент незастрахованных).

Для отрицательных факторов значимыми были процент городского населения, сельское население в целом и средний доход домохозяйства. Это говорит нам о том, что по мере того, как округа становятся более населенными и / или более городскими, их незастрахованная ставка снижается. Кроме того, более высокий средний доход домохозяйства связан с более низкими показателями незастрахованных доходов, и городские округа имеют значительно более высокий доход, чем сельские округа (56 тыс. Против 44 тыс., Pvalue = 1,07e-80).

Выводы

После выполнения нашей линейной регрессии мы смогли определить, что сочетание показателей здоровья населения и демографических факторов оказало значительное влияние на количество незастрахованных. Высокий процент курильщиков и пожилых граждан, пользующихся программой Medicare, способствовал увеличению показателей незастрахованных. Я утверждаю, что пожилые люди, участвующие в программе Medicare, являются косвенным показателем общего количества пожилых людей в округе, и, поскольку пожилые люди и дети с большей вероятностью не застрахованы, это ведет к росту этого показателя.

Другие факторы снизили ставку. В основном, каждое увеличение доли городского населения на одно стандартное отклонение снижает показатель незастрахованного населения на 5,62%. У среднего дохода домохозяйства был меньший, но значимый коэффициент уменьшения на 2,44% для каждого увеличения стандартного отклонения. Наконец, по мере увеличения численности населения округа, городского или сельского, размер незастрахованного населения уменьшается.

Будущие направления

Я хотел бы включить более детальные данные, например, в то время как доход домохозяйства играл роль в уровне незастрахованных, наши данные были ограничены на уровне округа, округа со смешанным городским и сельским населением могут находиться под влиянием городского населения. повышенный средний доход.

Есть также факторы, которые могли повлиять на этот показатель, по которым было трудно собрать данные. Я бы предложил систему опросов и агрегирования медицинских карт, которые могли бы указать причины того, почему пациенты не имеют страховки. Например, список медицинских учреждений с действующей системой благотворительности (где незастрахованные пациенты могут получить доступ к общему «фонду» для оплаты процедур), чтобы изучить, как это влияет на размер незастрахованной помощи.

Источники

[1] С. Вайнер, Я не могу себе этого позволить: дилеммы в уходе за незастрахованными и недостаточно застрахованными (2001), Journal of General Internal Medicine 16: 412–418.

[2] Дж. Коэн, Статистический анализ мощности (1992), Текущие направления психологической науки 3: 98–101.

Наборы данных можно найти в самой статье. Мое репо здесь.