В этом сообщении в блоге я бы проанализировал данные о заболеваниях и смертях в Индии вместе с дополнительными наборами данных, чтобы прийти к определенным выводам.

Первый возникает вопрос: Почему нам следует заботиться об этих выводах? Население Индии растет тревожными темпами. 1,252 миллиарда по данным на 2013 год. Однако распределение богатства крайне неравномерно, большая часть богатства сосредоточена у очень небольшого процента людей в стране. Эта статья Business Standard News развивает то же самое с использованием отчетов Всемирного банка. Этот дисбаланс приводит к тому, что многие люди в стране находятся за чертой бедности. Фактически, на странице Википедии о бедности в Индии говорится, что около 276 миллионов человек жили ниже 1,25 доллара в день по паритету покупательной способности. Представьте, как эти люди могли позаботиться о своих расходах на здоровье.

Аналитика здравоохранения очень важна для такой страны, как Индия, с большим населением, поэтому для правительства довольно сложно помогать тем, кто в ней нуждается. Я не эксперт, но постараюсь извлечь некоторые интересные и неочевидные выводы из Набор данных о здоровье по заболеваниям и смертям, опубликованный правительством Индии. С технической точки зрения я попытаюсь показать, как данные в таблицах Excel размером около 50 КБ могут быть использованы для получения таких интересных идей.

Шаг 1. Базовый анализ заболеваний на основе частоты

В наборе данных в основном указываются смерти и случаи пяти видов болезней:

  1. Острые диарейные заболевания
  2. Острая респираторная инфекция
  3. Вирусный гепатит
  4. Японский энцефалит
  5. Малярия

Ну, первый анализ, который я выполнил, заключался в том, чтобы посмотреть, сколько случаев каждой болезни происходит в среднем за год.

Мы видим, что Острая респираторная инфекция явно превзошла все остальные болезни с более чем 27 миллионами случаев, в то время как японский энцефалит и вирусный гепатит даже не видны на графике. Среднее число случаев японского энцефалита и вирусного гепатита составляет 3897 и 127899 соответственно. Чтобы лучше видеть количество случаев, я построил журнал на основе числа 2 случаев. Следует отметить, что даже небольшая разница в ln (частоте) указывает на очень большую разницу в количестве случаев заболеваний.

Исходя из этого первоначального анализа, можно сделать вывод, что об острой респираторной инфекции следует уделять самое пристальное внимание. Тем не менее, я спросил себя, действительно ли количество случаев является хорошим показателем для определения наиболее смертельной болезни. Я объясню на примере, почему считаю это плохой метрикой. Представьте себе количество случаев кашля и простуды, которые случаются каждый год. Я считаю, что число таких случаев превысит 27 миллионов, но считаем ли мы эту болезнь смертельной? Для вас, чтобы задуматься.

Шаг 2. Анализ уровня смертности (количество смертей на случай)

Чтобы проанализировать, какая болезнь на самом деле является более опасной, я попытался проанализировать среднее количество смертей на случай каждой болезни. Результат выглядит примерно так.

  • Острые диарейные заболевания: 0,000227674954
  • Малярия: 0,000574820666
  • Острая респираторная инфекция: 0,000085882034
  • Японский энцефалит: 0.2093743238
  • Вирусный гепатит: 0,005330875371

Удивительно, но показатель смертей на случай является наименьшим в случае острой респираторной инфекции, у которой было наибольшее количество случаев, а для японского энцефалита он был самым высоким - почти 1 смерть из 5, что действительно очень много. Следующий график показывает то же самое.

Шаг 3. Анализ тенденций заболеваемости по годам

В следующей части я попытался проанализировать тенденции, отображаемые путем построения графика смертности с 2006 по 2011 год. Диапазон выбран таким образом, чтобы не было значений NULL по годам. На следующем графике показаны тенденции смертности от четырех болезней, кроме японского энцефалита, поскольку его построение уменьшит понимание других болезней. Следующий график показывает тенденцию развития японского энцефалита.

На следующем графике я особенно анализирую японский энцефалит, потому что у него самый высокий уровень смертности. Удивительно, но тенденция японского энцефалита снижалась, но в последнее время начала расти, как показано на графике. Я также попытался подобрать модель полинома с двумя степенями для анализа и прогнозирования тенденции.

Модель регрессии (линейная или полиномиальная) может быть очень легко приспособлена к этим данным, но я не думаю, что это будет полезно, поскольку количество точек данных очень мало.

Шаг 4. Проведите разумный анализ болезней

Данные по штатам были предоставлены по всем пяти болезням только за 2010 и 2011 годы. На основе этих данных я выделил штаты с наименьшим количеством случаев заболеваний, а именно:

Некоторые выводы, которые я сделал из данных:

  1. У Лакшдвипа наименьшее количество заболеваний из 3 болезней (значения или два других заболевания для NULL). Однако причиной может быть низкая численность населения.
  2. В случае болезней, передающихся через воду, наибольшее количество случаев имеют Орисса и Андхра-Прадеш. Эти штаты касаются Индийского океана, и, согласно Набору данных о качестве воды, в этих штатах уровень загрязнения воды выше, чем в других прибрежных штатах. Коэффициент корреляции Пирсона для этих состояний составил 0,83 и 0,76, что довольно много. Даже для Западной Бенгалии значение константы составляло 0,732.
  3. Я нашел еще одну причину, по которой только эти прибрежные районы имеют высокую частоту заболеваний из-за меньшего количества больниц. Если мы посмотрим на количество больниц, в Ориссе, Западной Бенгалии и Андхра-Прадеше больниц меньше, чем в других прибрежных штатах. Это также может быть фактором увеличения количества заболеваний. Мы можем видеть разницу в Махараштре и Тамил Наду по сравнению с Западной Бенгалией, Андхра-Прадеш и Ориссой. На приведенной ниже карте показано, как распределены больницы. (Красные маркеры обозначают больницы.)

Направления на будущее: я хочу увидеть, как болезни распространяются в Индии физически. Например, как прибрежные болезни достигают внутренних территорий? Какими физическими путями следуют?

Если у вас есть предложения / комментарии / критика к этому сообщению, не стесняйтесь комментировать. Я хотел бы услышать ответ от моих читателей.

Если вы хотите узнать обо мне больше, проверьте мой профиль в LinkedIn.