Исследовательский анализ данных - это исследование данных с помощью инструментов построения графиков, линейной алгебры, статистики и некоторых замечательных библиотек, чтобы понять, что на самом деле представляют собой данные, прежде чем переходить к моделированию.

Я использую данные об индийском сельском хозяйстве. Сельское хозяйство Индии состоит из многих культур, большая часть из которых составляет рис и пшеница. Индийские фермеры выращивают бобовые, картофель, сахарный тростник, масличные культуры, а также непищевые продукты, такие как хлопок, чай, кофе, каучук и джут. Несмотря на то, что в Индии участвует значительная часть населения страны, урожайность с гектара в целом ниже международных стандартов. За этим стоит ненадлежащее управление водными ресурсами, отсутствие применения современных технологий в секторе, последствия изменения климата и многие причины. Кроме того, в традиционных методах ведения сельского хозяйства, как правило, нет обновлений из-за недостатка инноваций в этой области.

Итак, здесь я исследую набор данных по сельскому хозяйству Индии, предоставленный с сайта https://www.kaggle.com/srinivas1/agricuture-crops-production-in-india.

Набор данных имеет в общей сложности 6 функций (Feature / Variable / Input-variable / Dependent-variable / Basically a Column) с именами 'Crop', 'State', ' Стоимость выращивания (`/ га) A2 + FL ',« Стоимость выращивания (`/ га) C2», «Стоимость производства (` / центнер ) C2 ',' Урожайность (ц / га) '. Все эти данные используются в Индии для расчета MSP: минимальной цены поддержки.

Согласно Википедии, MSP - это цена сельскохозяйственной продукции, установленная правительством Индии для закупки напрямую у фермера. Эта ставка призвана гарантировать фермерам минимальную прибыль от урожая, если на рынке цена ниже, чем понесенные затраты.

MSP объявляется правительством Индии в начале посевного сезона для определенных культур на основе рекомендаций Комиссии по сельскохозяйственным затратам и ценам (CACP). MSP - это цена, установленная правительством Индии для защиты производителей - фермеров от чрезмерного падения цен в годы рекордного производства. Минимальные поддерживающие цены - это гарантированная цена на их продукцию со стороны государства. Основные цели заключаются в том, чтобы помочь фермерам избавиться от бедных продаж и закупить продовольственное зерно для общественного распределения. В случае, если рыночная цена на товар упадет ниже объявленной минимальной цены из-за непомерно высокого уровня производства и перенасыщения рынка, государственные органы закупают все количество, предлагаемое фермерами, по объявленной минимальной цене.

Чтобы начать исследование данных, я импортирую Pandas, Numpy, Seaborn и Matplotlib. (Перейдите по этой ссылке, чтобы узнать, как это сделать: https://github.com/dzorlu/GADS/wiki/Guide-to-installing-machine-learning-libraries-in-python). Здесь я исследую наш файл данных CSV с помощью создания объекта pandas с помощью метода read_csv ().

Теперь я пробую создать 2D-график рассеяния с использованием объекта Matplotlib для имеющихся у нас данных. Он строит простой двухмерный график зависимости «Стоимость возделывания (гектар) A2 + FL» от «Урожайности (центнеров / гектар)». В Индии «Стоимость выращивания (г / га) A2 + FL» больше способствует расчету MSP, поэтому мне интересно посмотреть, какое отношение затраты A2 + FL имеют к урожайности.

Для получения более точной информации мы можем использовать Seaborn.

Но что, если в Yield участвует больше функций ?! Так что здесь мне на помощь приходит Pair-Plot! Здесь у нас есть основные 4 функции, которые могут повлиять на окончательную доходность. У нас может быть всего 4C2 возможных графика, потому что у нас есть 4 объекта, и каждый график принимает 2 объекта.

Здесь результат будет таким, как на графике ниже.

На вертикальной стороне у нас есть функции «Стоимость выращивания (« / гектар) A2 + FL »,« Стоимость выращивания («/ гектар) C2», «Стоимость производства (« / центнер) C2 »,« Урожайность. (Квинтал / Гектар) снизу вверх. На горизонтальной стороне у нас есть функции «Стоимость выращивания (« / гектар) A2 + FL »,« Стоимость выращивания («/ гектар) C2», «Стоимость производства (« / центнер) C2 »,« Урожайность. (Quintal / Hectare) 'слева направо.

Разрешите представить вам его по частям. Это график из верхнего левого угла, который показывает «Стоимость выращивания (г / гектар) A2 + FL» по сравнению «Стоимость культивирования (г / гектар) A2 + FL». Он представляет собой функцию плотности вероятности или сглаженную гистограмму «Стоимость возделывания (г / га) A2 + FL».

В левой части всего графика есть цветные изображения различных культур.

Ниже показан второй график из левого верхнего угла в правом направлении. что представляет собой «Стоимость культивирования (г / га) C2» по сравнению с «стоимостью культивирования (г / гектар) A2 + FL».

Ниже находится третий график из левого верхнего угла в правом направлении. Он представляет собой «Себестоимость продукции (« / ц) C2 »в сравнении со« стоимостью культивирования («/ гектар) A2 + FL».

Последняя строка в верхнем ряду представляет собой график, представляющий «Урожайность (ц / га)» в зависимости от «Затраты на культивирование (« / га) A2 + FL ».

Итак, из всех этих частей целого графика мы можем сделать следующие выводы:

Почти для всех культур, кроме сахарного тростника,

  1. «Стоимость выращивания (г / га) A2 + FL» колеблется от 5k до 30k.
  2. «Себестоимость продукции (` / ц / ц) C2 »колеблется от 0 тыс. До 4 тыс. Руб.
  3. «Стоимость выращивания (г / га) C2» колеблется от 0 до 50 тысяч.
  4. Урожайность (ц / га) колеблется от 0 до 100 кварталов.

Для сахарного тростника,

  1. «Стоимость выращивания (г / га) A2 + FL» выше 50к.
  2. «Себестоимость продукции (` / центнеров) C2 »- это почти ничего.
  3. «Стоимость выращивания (г / га) C2» выше 80k.
  4. Урожайность (центнеров на гектар) колеблется от 250Q до 1250Q.

Теперь, в 1D графике, мы строим график только для одного объекта, но этот график не дает информации о распространении объекта.

Лучшая визуализация одномерных графиков - это сглаженная гистограмма, которая позволяет избежать наложения точек, т.е. стоимость выращивания сахарного тростника распределяется от 50 до 70 тысяч. Учитывая стоимость выращивания A2 FL от 10к до 20к, я нахожу почти 0,0001 балла. Здесь график отделяет только сахарный тростник от других культур, для других культур нам нужны более продвинутые методы.

Гладкая гистограмма - это представление PDF: функции плотности вероятности. Каждая точка в PDF-файле представляет собой счетчики для этого конкретного значения в данных.

Теперь CDF: кумулятивная функция распределения. Это совокупная сумма PDF-файла. Каждая точка на кривой CDF представляет интеграцию PDF до этой точки CDF. Ниже представлена ​​гистограмма доходности. Каждая точка в CDF представляет, какой процент от общего количества баллов принадлежит ниже этой точки.

Numpy предоставляет некоторую статистическую точку зрения на такие данные, как Среднее, Стандартное отклонение, Среднее абсолютное отклонение, Квантили, и 90-й процентиль.

Которые выходят, как показано ниже.

Контурные графики - это 2D-графики вероятностной плотности. Этот график говорит, что есть много точек, в которых стоимость C2 (выращивание) составляет около 20 тысяч, а стоимость A2FL ниже 20 тысяч. мы можем видеть плотность и небольшое количество точек стоимости c2 от 80k до 1L, а a2fl - от 50k до 60k, что представляет сахарный тростник. Seaborn предоставляет метод Jointplot () для контуров. Название «объединенный график», потому что оно представляет собой контуры, а также PDF-файлы по краям.