Введение
В последнее время в Индии наблюдается огромный рост стартап-экосистемы с такими компаниями, как CRED, PharmEasy, Digit Insurance, Meesho, Groww и Swiggy в числе лучших стартапов Индии. В этой статье делается попытка выяснить состояние стартап-сцены в Индии, анализируя данные с 2018 по 2021 год.
Этот анализ поможет венчурным капиталистам и потенциальным инвесторам принимать обоснованные и разумные бизнес-решения, а также эффективно использовать предоставленное финансирование.
Чтобы провести этот анализ, я построил гипотезу и несколько вопросов, чтобы лучше понять наши данные и, в конечном итоге, проверить гипотезу.
При этом я использовал CRосс Iпромышленный Sстандартный процессдля DATA Mining (CRISP-DM) Framework.
Методология
Согласно IBM, CRISP-DM, что означает межотраслевой стандартный процесс для интеллектуального анализа данных, является проверенным в отрасли способом управления вашими усилиями по интеллектуальному анализу данных.
- В качестве методологии он включает описания типичных этапов проекта, задач, связанных с каждым этапом, и объяснение отношений между этими задачами.
- В качестве модели процесса CRISP-DM предоставляет обзор жизненного цикла интеллектуального анализа данных.
Шесть этапов жизненного цикла интеллектуального анализа данных CRISP-DM:
Понимание бизнеса
Задача состоит в том, чтобы разработать уникальную историю на основе этого набора данных, сформулировав и
проверив гипотезу, задав правильные вопросы, проведя анализ и предоставив
информацию с соответствующими визуализациями нашим заинтересованным сторонам, то есть венчурным капиталистам, инвесторам, предприятиям, Организации и т.д.
Гипотеза
Null: Финансирование с годами увеличивается
Альтернативная гипотеза: финансирование остается постоянным на протяжении многих лет
Вопросы
- На каком этапе большинство компаний получили финансирование?
- Влияет ли местоположение на этап наибольшего финансирования?
- а) Каковы 10 самых финансируемых компаний/секторов?
b) На каком этапе находятся 10 самых финансируемых компаний/отраслей? - В какой город/населенный пункт поступает больше всего средств?
(независимо от этапа, поскольку вопрос 2 касался его части) - Кто больше всего финансирует инвесторов за самый финансируемый год?
(за 2019, 2020 годы) - Какова была тенденция финансирования на протяжении многих лет?
а) В каком году было выделено больше всего средств?
b) Каково среднее финансирование за каждый год?
c) Каково процентное увеличение финансирования из года в год?
Понимание данных
При просмотре наборов данных были сделаны некоторые наблюдения.
Сделанные выводы
1. Столбец "Раунд/серия" в 2018 г. аналогичен столбцу "Этап" в наборе данных 2019/2021/2020 гг.
2. Столбец "Отрасль" в 2018 г. аналогичен столбцу "Отрасль" в наборе данных за 2019/2021/2020 гг.
3. Набор столбцов за 2018 г. не содержит 3 столбцов: "Год основания", "Основатель", "Информация об инвесторе"
4. Инвесторы в наборе данных за 2019 г. не разглашается
5. Расположение в 2018 г. аналогично местонахождению головного офиса в 2019–2021 гг.
6. Добавьте столбец даты в набор данных и заполните его.
Подготовка данных
При подготовке данных необходимо импортировать некоторые библиотеки Python.
Импорт библиотек Python
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore')
В зависимости от типа проекта и проблемы с самого начала проекта в Jupyter Notebook можно импортировать больше библиотек. В данном случае этих библиотек достаточно для подготовки данных.
Импорт наборов данных
funding_2018 = pd.read_csv('startup_funding2018.csv') funding_2019 = pd.read_csv('startup_funding2019.csv') funding_2020 = pd.read_csv('startup_funding2020.csv') funding_2021 = pd.read_csv('startup_funding2021.csv')
Взглянув на наборы данных
funding_2018.head(3)
PS: поскольку имеется четыре набора данных, по одному за каждый год с 2018 по 2021 год, повторите этот шаг, чтобы взглянуть на другие наборы данных за 2019, 2020 и 2021 годы.
Очистка данных
Прежде чем мы сможем выполнить какой-либо исследовательский анализ данных (EDA), мы должны убедиться, что данные очищены. мы сделали некоторые наблюдения на этапе понимания данных, которые указывают на то, что данные необходимо стандартизировать до проведения анализа.
# RENAME COLUMN 2018 columns_2018 = funding_2018.rename( columns = {'Company Name':'Company/Brand', 'Industry': 'Sector', 'Round/Series': 'Stage', 'Amount' :'Amount($)', 'Location':'HeadQuarter', 'About Company' : 'What it does'}) columns_2018.head(0 )
Добавление столбца «Год» во все четыре набора данных
columns_2018['Year'] = ['2018']*526 funding_2019['Year'] = ['2019']*89 funding_2020['Year'] = ['2020']*1055 funding_2021['Year'] = ['2021']*1209
Заключение
Для любого типа проекта, связанного с данными, очистка данных иногда может занимать около 70 % всего процесса, поэтому важно, чтобы вы уделили время очистке и подготовке данных задолго до начала анализа.