Введение

В последнее время в Индии наблюдается огромный рост стартап-экосистемы с такими компаниями, как CRED, PharmEasy, Digit Insurance, Meesho, Groww и Swiggy в числе лучших стартапов Индии. В этой статье делается попытка выяснить состояние стартап-сцены в Индии, анализируя данные с 2018 по 2021 год.

Этот анализ поможет венчурным капиталистам и потенциальным инвесторам принимать обоснованные и разумные бизнес-решения, а также эффективно использовать предоставленное финансирование.

Чтобы провести этот анализ, я построил гипотезу и несколько вопросов, чтобы лучше понять наши данные и, в конечном итоге, проверить гипотезу.

При этом я использовал CRосс Iпромышленный Sстандартный процессдля DATA Mining (CRISP-DM) Framework.

Методология

Согласно IBM, CRISP-DM, что означает межотраслевой стандартный процесс для интеллектуального анализа данных, является проверенным в отрасли способом управления вашими усилиями по интеллектуальному анализу данных.

  • В качестве методологии он включает описания типичных этапов проекта, задач, связанных с каждым этапом, и объяснение отношений между этими задачами.
  • В качестве модели процесса CRISP-DM предоставляет обзор жизненного цикла интеллектуального анализа данных.

Шесть этапов жизненного цикла интеллектуального анализа данных CRISP-DM:

  1. Бизнес-понимание
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. "Оценка"
  6. Развертывание

Понимание бизнеса

Задача состоит в том, чтобы разработать уникальную историю на основе этого набора данных, сформулировав и
проверив гипотезу, задав правильные вопросы, проведя анализ и предоставив
информацию с соответствующими визуализациями нашим заинтересованным сторонам, то есть венчурным капиталистам, инвесторам, предприятиям, Организации и т.д.

Гипотеза

Null: Финансирование с годами увеличивается

Альтернативная гипотеза: финансирование остается постоянным на протяжении многих лет

Вопросы

  1. На каком этапе большинство компаний получили финансирование?
  2. Влияет ли местоположение на этап наибольшего финансирования?
  3. а) Каковы 10 самых финансируемых компаний/секторов?
    b) На каком этапе находятся 10 самых финансируемых компаний/отраслей?
  4. В какой город/населенный пункт поступает больше всего средств?
    (независимо от этапа, поскольку вопрос 2 касался его части)
  5. Кто больше всего финансирует инвесторов за самый финансируемый год?
    (за 2019, 2020 годы)
  6. Какова была тенденция финансирования на протяжении многих лет?
    а) В каком году было выделено больше всего средств?
    b) Каково среднее финансирование за каждый год?
    c) Каково процентное увеличение финансирования из года в год?

Понимание данных

При просмотре наборов данных были сделаны некоторые наблюдения.
Сделанные выводы
1. Столбец "Раунд/серия" в 2018 г. аналогичен столбцу "Этап" в наборе данных 2019/2021/2020 гг.
2. Столбец "Отрасль" в 2018 г. аналогичен столбцу "Отрасль" в наборе данных за 2019/2021/2020 гг.
3. Набор столбцов за 2018 г. не содержит 3 столбцов: "Год основания", "Основатель", "Информация об инвесторе"
4. Инвесторы в наборе данных за 2019 г. не разглашается
5. Расположение в 2018 г. аналогично местонахождению головного офиса в 2019–2021 гг.
6. Добавьте столбец даты в набор данных и заполните его.

Подготовка данных

При подготовке данных необходимо импортировать некоторые библиотеки Python.

Импорт библиотек Python

import pandas as pd 

import numpy as np 
 
import seaborn as sns 

import matplotlib.pyplot as plt 

import warnings
warnings.filterwarnings('ignore')

В зависимости от типа проекта и проблемы с самого начала проекта в Jupyter Notebook можно импортировать больше библиотек. В данном случае этих библиотек достаточно для подготовки данных.

Импорт наборов данных

funding_2018 = pd.read_csv('startup_funding2018.csv')
funding_2019 = pd.read_csv('startup_funding2019.csv')
funding_2020 = pd.read_csv('startup_funding2020.csv')
funding_2021 = pd.read_csv('startup_funding2021.csv')

Взглянув на наборы данных

funding_2018.head(3)

PS: поскольку имеется четыре набора данных, по одному за каждый год с 2018 по 2021 год, повторите этот шаг, чтобы взглянуть на другие наборы данных за 2019, 2020 и 2021 годы.

Очистка данных

Прежде чем мы сможем выполнить какой-либо исследовательский анализ данных (EDA), мы должны убедиться, что данные очищены. мы сделали некоторые наблюдения на этапе понимания данных, которые указывают на то, что данные необходимо стандартизировать до проведения анализа.

# RENAME COLUMN 2018

columns_2018 = funding_2018.rename( columns = 
                          {'Company Name':'Company/Brand',
                           'Industry': 'Sector', 
                           'Round/Series': 'Stage',
                           'Amount' :'Amount($)',
                           'Location':'HeadQuarter',
                           'About Company' : 'What it does'})

columns_2018.head(0
                 )

Добавление столбца «Год» во все четыре набора данных

columns_2018['Year'] = ['2018']*526
funding_2019['Year'] = ['2019']*89
funding_2020['Year'] = ['2020']*1055
funding_2021['Year'] = ['2021']*1209

Заключение

Для любого типа проекта, связанного с данными, очистка данных иногда может занимать около 70 % всего процесса, поэтому важно, чтобы вы уделили время очистке и подготовке данных задолго до начала анализа.

ПРОДОЛЖЕНИЕ В ЧАСТИ 2