С 1990-х годов в Индии происходит национальная катастрофа. Фермеры совершают самоубийства все более угрожающими темпами. Сама Индия является аграрной страной, около 70% населения которой прямо или косвенно зависит от сельского хозяйства. Количество самоубийств в фермерском секторе в Индии в прошлом году фактически снизилось, но по-прежнему находится на уровне эпидемии по сравнению с остальным миром и оказало огромное давление на законодателей. Эта эпидемия не проходит незамеченной, о ней сообщают многие источники новостей и высказывают предположения о возможных причинах этой эпидемии.

Я решил использовать подход, основанный на данных, для определения факторов, заставляющих этих фермеров покончить с собой.

Чтобы начать свой анализ, я хотел увидеть, насколько серьезна эта эпидемия, и сам хотел посмотреть на цифры. Я нашел набор данных по миру данных, в котором была ежегодная статистика самоубийств по профессиям. После визуализации этих данных мы видим, что общие числа увеличиваются. Но когда я изолировал эту профессию от сельского хозяйства и сельскохозяйственной деятельности, цифры в последние годы несколько снизились. Здесь мне удалось найти более полный набор данных о самоубийствах лиц, занятых в сельском хозяйстве. Эти данные были такими же, как и мои предыдущие, но предоставили статистику, относящуюся к 1995 году по сравнению с 2001 годом. Используя веб-скрейпинг и функцию слияния панд, я создал более надежную базу данных о самоубийствах в сельском хозяйстве. Тот факт, что количество самоубийств среди работников сельского хозяйства и сельского хозяйства сокращается, является положительным моментом, но, глядя на общие цифры, он все еще вызывает тревогу.

Зная, что Индия - аграрная страна и что большая часть населения полагается на сельское хозяйство, мне было любопытно узнать, сколько людей на самом деле занято в сельском хозяйстве.

Коллекция индикаторов развития Всемирного банка, доступная здесь, представляет самые свежие и точные доступные данные о глобальном развитии и включает национальные, региональные и глобальные оценки. Я ранее использовал этот набор данных вместе с многомерным вменением признаков для прогнозирования уровней ВИЧ в странах третьего мира и опубликовал свои результаты на среднем уровне. Там я описал шаги, которые я предпринял для очистки этого огромного набора данных. После выделения очищенного набора данных только по Индии я обнаружил интересную статистику.

Из набора данных по индикаторам мирового развития я нашел некоторые релевантные данные по урожайности зерновых по годам. Урожайность зерновых включает пшеницу, рис, кукурузу, ячмень, овес, рожь, просо, сорго, гречиху и смешанные зерна, измеряемые в килограммах с гектара убранной земли. Быстрая визуализация этих данных показывает, что урожайность неуклонно растет с 1960 года.

С таким резким увеличением производства зерновых я решил, что было бы уместно посмотреть на уровень занятости в сельском хозяйстве.

Мы видим, что по мере того, как урожайность зерновых продолжает расти, общая занятость в сельском хозяйстве продолжает снижаться. Одна из возможных гипотез - растущая коммерциализация сельскохозяйственной отрасли, и коммерческие фермы заменяют фермы, принадлежащие самим индивидуальным фермерам.

Чтобы лучше проиллюстрировать корреляцию, я нормализовал числа из каждого набора данных, чтобы их можно было визуализировать вместе.

Этот график показывает обратную зависимость между урожайностью зерновых и процентом занятых в сельском хозяйстве.

Но что, если бы мы захотели увидеть, где будут эти цифры, скажем, через 10 лет. Вот где в игру вступает Пророк Facebook. Prophet - это процедура для прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тренды соответствуют еженедельной, годовой и дневной сезонности. Мои данные по урожайности и занятости основаны на годовой сезонности, поэтому было относительно легко создать модель и построить 10-летний прогноз для каждой переменной.

Вывод, который можно сделать из предсказаний Пророка, заключается в том, что урожайность зерновых будет продолжать расти, несмотря на сокращение доли занятых в сельском хозяйстве.

Используя BeautifulSoup4, я смог собрать данные из статьи в Википедии, в которой излагались причины, по которым эти фермеры покончили с собой. Эти статистические данные относятся к 2002 году, но они дают хорошую основу для более глубокого анализа. Поскольку неурожай был основной причиной, я решил посмотреть на факторы, которые могут привести к неурожаю этих фермерских культур.

Чтобы понять причины неурожая у некоторых фермеров, я решил взглянуть на некоторые статистические данные по окружающей среде, которые можно отнести к неурожаю.

Из своего набора данных по индикаторам мирового развития я нашел статистику выбросов CO2 на душу населения по годам. Чтобы понять тенденции в этих данных, я создал простой график временных рядов.

Выбросы C02 в Индии с 1960 года выросли почти в геометрической прогрессии. Отчасти это могло быть связано с увеличением урожайности зерновых.

Хотя выбросы C02 не могут быть самым большим фактором в успешном урожае или нет, климат играет значительную роль.

Хотя выбросы C02 имеют тенденцию к увеличению, мне все еще было любопытно увидеть прогнозы, которые создаст Пророк.

Я нашел набор данных с историческими средними температурами в Индии на открытой правительственной платформе данных Индии. Эти данные уже были очень хорошо очищены при загрузке, поэтому визуализировать их было легко.

Мы видим, что среднегодовой климат в Индии улучшается. Поскольку климатические данные не обладают высокой степенью линейности, сделанные предсказания Пророка трудны для понимания.

Еще одним фактором, определяющим успех или неудачу сбора урожая, являются осадки. Платформа открытых правительственных данных Индии предоставила мне надежный набор данных об осадках.

Из визуализации дождя трудно сделать какие-либо выводы, и, фактически, на данный момент никакие выводы не могут быть сделаны ни на одной из моих визуализаций. Я все еще задавался вопросом, что вызывает неурожаи и, в свою очередь, заставляет фермеров покончить с собой. Я понял, что подходящим способом показать взаимосвязь между этими переменными было бы вычисление коэффициентов корреляции Пирсона.

Данные о самоубийствах, которые я собрал, относятся только к 1995–2012 гг., Поэтому для расчета коэффициента корреляции мне пришлось сократить свои данные до тех лет.

Моим следующим шагом было вызвать функцию pandas .corr (), которая вычисляет попарную корреляцию столбцов, исключая значения NA / null.

Я использовал морские прогулки, чтобы создать тепловую карту кадра корреляционных данных, чтобы лучше проиллюстрировать результаты.

Первое, что можно сделать, это то, что отношение между самоубийствами фермеров и годовым количеством осадков составляет -0,38. Это отрицательная корреляция, означающая, что по мере того, как количество осадков уменьшается, а урожай с большей вероятностью не состоится из-за нехватки воды, фермеры с большей вероятностью совершат самоубийство.

Вторая по величине корреляция связана с годовым количеством осадков и выбросами CO2. По мере увеличения выбросов C02 наблюдается тенденция к уменьшению среднегодового количества осадков. При уменьшении среднегодового количества осадков вероятность неурожая возрастает.

Одна из причин, по которой я считаю, что корреляция не так высока, как ожидалось, заключается в том, что у меня была только статистика самоубийств фермеров, датируемая 1995 годом, по сравнению с остальными моими данными, датируемыми 1900 годом.

Вывод, который я делаю на основании этих двух пунктов, заключается в том, что увеличение выбросов C02 вызывает уменьшение количества осадков, а также влияет на температуру. Эти два фактора связаны с самоубийствами фермеров.

Связывая все это с первым проведенным мной анализом занятости в сельском хозяйстве, я понял, что с учетом этих факторов, приводящих к непостоянным урожаям, мелкие фермеры не могут позволить себе плохой сезон, в то время как крупные коммерческие фермы могут позволить себе один или два плохих сезона, что вынуждает мелких фермеров. фермеры из сельскохозяйственной отрасли.

Чтобы быть уверенным, что для более полного углубленного анализа потребуются исторические статистические данные о самоубийствах в сельском хозяйстве и сельском хозяйстве, чтобы лучше проиллюстрировать взаимосвязь между анализируемыми факторами и самоубийствами. Моя визуализация корреляции не показывает существенной связи между изменением климата и самоубийствами фермеров. Также в моем анализе мог бы помочь набор данных о строго небольших урожаях зерновых. Я решил взглянуть на выбросы C02, потому что термин «изменение климата» обычно относится к деятельности человека, а выбросы C02 представляют собой деятельность человека.

В заключение, рост человеческой деятельности в виде выбросов CO 2 оказывает влияние на количество осадков и климат, что, в свою очередь, приводит к гибели сельскохозяйственных культур. Неурожай приводит к увеличению числа самоубийств фермеров.