Подробное изучение данных о самоубийствах в Индии за 2019 год с использованием тепловой карты Correlation и кластеризации K-средних

С января прошлого года статистика, связанная с Covid, была видна повсюду, и, как и большинство из нас, я следил за ней. Индия сообщила о 150 036 случаях смерти от Covid до 31 декабря 2020 года. Под ним бушевала еще одна тихая пандемия, счет которой не каждый день бросается в глаза. Если внимательно присмотреться, мы можем заметить их повсюду как небольшие новости.

Если вы еще не догадались, я говорю о самоубийствах. В 2019 году в Индии было зарегистрировано 139 123 случая самоубийства, что отнюдь не является малым числом. В этой серии статей мы изучим данные о самоубийствах в Индии за 2019 год и сделаем выводы.

Что мы здесь анализируем?

NCRB (Национальное бюро регистрации преступлений, Индия) публикует данные о самоубийствах на уровне каждого штата Индии - по причинам, возрасту, профессии, образованию, экономическому и социальному статусу. Последние доступные данные относятся к 2019 году на момент написания этой статьи.

В этой части этой серии статей мы исследуем, коррелирует ли количество самоубийств в штатах с какими-либо социально-экономическими факторами в штатах. Мы углубимся в визуализацию причинно-следственной, возрастной и образовательной визуализации и идеи в следующих частях.

Я взял :

- Данные о самоубийствах за 2019 год от НЦРБ

- индикаторы экономики и развития штата, такие как уровень грамотности, общий коэффициент рождаемости, чистый внутренний продукт на душу населения (ОСДП), коэффициент Джини (показатель экономического равенства), уровень безработицы, Средняя оценка активов и Процент ниже черты бедности (BPL) из других отчетов государственных обследований и данных переписи населения.

-Данные о потреблении алкоголя и злоупотреблении психоактивными веществами из отчета, опубликованного Министерством социальной справедливости и расширения прав и возможностей в 2019 году.

Изучение данных

Важная информация от EDA

· В наборе данных 36 строк (29 штатов и 7 союзных территорий) и 25 столбцов до очистки или выбора функций.

· 5 столбцов имели нулевые значения

· Серийный номер и все столбцы, содержащие абсолютное количество самоубийств и население штата, были опущены. Это уменьшило количество столбцов до 18.

· Уровень самоубийств - наша главная особенность, которая нас интересует. Он определяется как количество самоубийств на 100 000 человек населения. В Лакшадвипе самый низкий уровень самоубийств - 0, а на Андаманских и Никобарских островах - самый высокий уровень самоубийств - 45,5.

· Нулевые значения были вменены с помощью медианы для пропущенных значений столбцов.

Корреляция между функциями

Ниже приведены корреляции между 18 объектами, представленными на морской тепловой карте. Признаки, имеющие очень высокую корреляцию, можно увидеть ярко-желтым или темно-синим цветом, в зависимости от направления корреляции.

В качестве следующего шага были удалены сильно коррелированные функции. Переменная, представляющая 10 штатов с наибольшим количеством алкоголиков, нуждающихся в помощи (‘Top10_alcoholics_needing_help’), почти не коррелирует с уровнем самоубийств, поэтому она также была опущена. Эта переменная имеет нули для всех строк, кроме 10.

Для целей данного анализа корреляция выше 0,7 и ниже -0,7 считается сильной, а корреляция между 0,5–0,7 и -0,7–0,5 - умеренной.

Некоторые из этих корреляций социально-экономических показателей и показателей развития интересно наблюдать, поскольку я взял данные из разрозненных источников, и тем не менее они как бы сходятся воедино и имеют смысл.

Хорошо…. почти все, кроме самоубийств. Через некоторое время мы увидим, где это оказалось вопреки моим ожиданиям и почему.

Сильная корреляция

1. Коэффициент Джини - это мера распределения доходов среди населения. 0 коэффициент Джини подразумевает совершенно равное распределение доходов, а 1 означает, что один житель получил весь доход, а остальные не получали никакого дохода.

Из этой тепловой карты можно увидеть, что коэффициент Джини имеет сильную отрицательную корреляцию со средним баллом активов, NSDP на душу населения и уровнем грамотности.

2. Коэффициент Джини имеет сильную положительную корреляцию с процентной долей BPL (% людей, живущих за чертой бедности в штате).

3. Средняя оценка актива имеет отрицательную корреляцию с процентной долей BPL.

4. Различные оценки злоупотребления психоактивными веществами сильно коррелируют друг с другом.

5. ВВП на душу населения и средний балл активов имеют сильную положительную корреляцию.

Умеренная корреляция

1. Коэффициент Джини и общий коэффициент рождаемости имеют умеренную положительную корреляцию.

(Общий коэффициент фертильности - это среднее количество детей, которые родятся у женщины за всю ее жизнь. Для поддержания численности населения он должен быть на уровне 2,1. При меньшем уровне численности населения численность населения сокращается или, чем выше, численность населения увеличивается)

2. Общий уровень грамотности имеет умеренную положительную корреляцию со средним показателем ОСВП на душу населения.

3. Общий коэффициент фертильности имеет умеренную отрицательную корреляцию с НСДП на душу населения и средним показателем активов.

4. Процент BPL имеет умеренную отрицательную корреляцию с CSDP на душу населения и уровнем грамотности.

Корреляция уровня самоубийств с другими переменными.

1. Уровень самоубийств показывает слабую отрицательную корреляцию с общим коэффициентом рождаемости (-0,44) и коэффициентом Джини (-0,38). Это означает, что в штатах, где уровень рождаемости выше и существует большее неравенство в доходах, уровень самоубийств ниже.

2. Он показывает слабую положительную корреляцию с общим процентным содержанием алкоголя (0,38) и среднедушевым NSDP (0,4).

В целом по Индии 66,2% самоубийств совершают люди с доходом ниже 100 000 рупий в год. Это группа с самым низким доходом. Вот почему было удивительно видеть отрицательную корреляцию уровня самоубийств с коэффициентом Джини и положительную корреляцию с ОСВП на душу населения.

Кластерный подход к этим данным

Кластеризация - это метод обучения без учителя, позволяющий сгруппировать похожие точки данных в кластеры на основе их сходства. В этом разделе мы сгруппируем штаты по уровню самоубийств.

Я использовал стандартный масштабатор Sklearn для масштабирования всех функций, поскольку кластеризация - это метод, основанный на расстоянии. Полученные кластеры не были построены на основе показателей самоубийств, и, следовательно, дисперсия внутри кластеров была слишком высокой.

Я хотел, чтобы кластеры формировались на основе количества самоубийств, или, другими словами, я хотел придать больший вес функции Suicide_Rate. Итак, я увеличил вес этой функции в 10 раз на масштабируемом наборе данных.

При запуске алгоритма K-средних для различных значений K от 2 до 10 был получен следующий график WSS (в пределах суммы квадратов / изгиба).

3 и 4 кажутся хорошими вариантами для K. Глядя на результаты Silhouette, 3 кажется, что дела обстоят лучше.

Используя K = 3 в алгоритме K-средних SKLearn и получив метки, я сгруппировал набор данных и получил средние значения для всех переменных.

Давайте посмотрим на 3 группы, отсортированные по возрастанию уровня самоубийств. Строки также имеют цветовую кодировку: зеленый, оранжевый и красный, чтобы дать интуитивно понятное представление о кластерах.

Кластер 1

В кластере 1 самый низкий уровень самоубийств - 4,39, и в нем 15 штатов. Уровень грамотности,% потребителей алкоголя, ОСВП на душу населения и средний балл по активам являются наименьшими в этой группе. В этом кластере уровень самоубийств намного ниже среднего показателя по Индии - 10,4 на тысячу населения. Ниже приведены состояния, попадающие в кластер 1, а также соответствующие показатели самоубийств.

Кластер 2

Уровень самоубийств в этой группе (14,65) выше, чем в среднем по Индии (10,4), и в ней 16 штатов. Уровень грамотности, уровень безработицы,% потребления алкоголя, СКР, средний балл активов и значения коэффициента Джини находятся между кластером 1 и кластером 0. Стратегия стратегического развития (NSDP) для этих штатов почти такая же, как и NSDP для штатов с самым высоким уровнем самоубийств (кластер 0). Другие цифры злоупотребления психоактивными веществами не показывают последовательной закономерности в отношении показателей самоубийств по кластерам. Следующие состояния попадают в кластер 2.

Кластер 0

В этом кластере, состоящем из 5 штатов, самый высокий уровень самоубийств (32,36), что намного превышает средний показатель по Индии. У него самый высокий уровень грамотности, самый низкий уровень безработицы, самый высокий показатель ОСВП на душу населения, самый низкий СКР и самый низкий коэффициент Джини. Однако в нем самый высокий процент употребления алкоголя.

Как выглядят эти кластеры?

Ниже представлены графики разброса уровня самоубийств по сравнению с несколькими переменными, которые показали некоторую корреляцию. 3 кластера показаны разными цветами.

Заключение

В этой статье мы рассмотрели, как данные об уровне самоубийств в Индии за 2019 год соотносятся с некоторыми социально-экономическими показателями и показателями развития штатов и союзных территорий.

Этот анализ выявил факты, противоречащие ожиданиям, что в более богатых штатах уровень самоубийств будет ниже.

Тепловая карта корреляции показала слабую положительную корреляцию между «уровнем самоубийств», «общим процентом алкоголиков» и «ОСДП на душу населения». Он показывает слабую отрицательную корреляцию между «коэффициентом Джини» и «общим коэффициентом рождаемости». Кластерный анализ кластеров, сформированных с помощью алгоритма K-средних, также показывает аналогичную картину.

Здесь следует отметить пару вещей: эти корреляции слабые, и корреляция не подразумевает причинно-следственной связи. В следующей части этой серии мы рассмотрим данные о самоубийствах с точки зрения причины.