АНАЛИЗ ПОКАЗАТЕЛЕЙ ПАКИСТАНА

Введение

Наука о данных дает нам глубокое понимание различных областей, помогая нам принимать более эффективные решения в бизнесе, управлении, экономической и социальной областях. Более того, прогнозирование с использованием моделей машинного обучения помогает нам прогнозировать и оценивать наши будущие шаги. В этой статье мы будем использовать набор данных индекса мирового развития для анализа социальных и экономических показателей Пакистана и разработаем модель с использованием sikit-learn для прогнозирования ВВП Пакистана на основе различных показателей. Предоставленный набор данных содержит данные о 1429 индикаторах с 1960 по 2019 год. Мы постараемся ответить на следующие вопросы

  • Насколько увеличились военные расходы Пакистана по сравнению с увеличением ВВП Пакистана.
  • Влияет ли увеличение населения Пакистана на уровень инфляции.
  • Удалось ли Пакистану контролировать свои государственные расходы.
  • Разработайте модель для прогнозирования ВВП Пакистана.

Подход

Мы будем использовать CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных), который включает следующие шаги.

  1. Понимание бизнеса
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

После завершения наших вопросов мы должны преобразовать и очистить наши данные в форме, чтобы мы могли ответить на наши вопросы.

Очистка данных

Мы предпримем следующие шаги для очистки наших данных

  • Транспонировать данные, чтобы индикаторы стали столбцами данных
  • Переименуйте столбцы с названием индикаторов для быстрого доступа
  • Удаление столбцов «Название страны», «Код страны» и «Название индикатора» и «Код индикатора» для устранения избыточности
  • Для разработки модели мы удалим все строки, содержащие хотя бы одно значение Null.

Отвечая на наши вопросы

Чтобы ответить на наши первые три вопроса, мы будем хранить ВВП Пакистана, военные расходы, государственные расходы (все три в текущих долларах США) и население Пакистана, уровень инфляции в отдельных переменных в виде списка. Мы будем строить

  • ВВП Пакистана против военных расходов, чтобы ответить на первый вопрос
  • Население Пакистана по отношению к уровню инфляции для второго вопроса
  • ВВП Пакистана и государственные расходы по третьему вопросу.
  • Для разработки нашей модели мы будем использовать общий объем экспорта, общий объем импорта, ВНП, ВНП, военные расходы и личные денежные переводы в качестве переменной X и ВВП в качестве переменной Y. Мы будем использовать модель линейной регрессии с test_size=.15 и random_state=50.

Результаты

  1. Ответ: Мы обнаружили, что военные расходы Пакистана увеличились очень незначительно по сравнению с увеличением ВВП, поскольку они демонстрируют очень линейную зависимость.

  1. Ответ: Из приведенного ниже графика мы можем сделать вывод, что между населением и инфляцией в Пакистане нет существенной связи. Это связано с тем, что график очень неравномерный. Если бы между этими двумя была связь, то график должен был бы показывать относительно линейное поведение.

  1. Ответ: Из приведенного ниже графика можно сделать вывод, что расходы правительства Пакистана большую часть времени превышали ВВП Пакистана. Следовательно, мы можем сделать вывод, что Пакистан всегда неправильно управлял своим бюджетом.

  1. Модель. При тестировании нашей модели для прогнозирования ВВП Пакистана за последние годы по сравнению с реальным ВВП мы смогли получить следующие прогнозы.

Вывод

Мы видели, что наука о данных очень помогает нам легко делать выводы на основе исторических данных и делать прогнозы на будущее. Хотя эту модель еще можно улучшить для получения более качественных прогнозов, она по-прежнему помогает делать более точные расчетные прогнозы.

Примечание

Исходный код доступен по адресу https://github.com/foxx-2/datascience_project1.git