Прогнозирование успеха венчурных инвестиций

Вы когда-нибудь задумывались, как стартапы собирают деньги или становятся достаточно крупными, чтобы стать публичной компанией? Фирмы венчурного капитала часто являются первыми инвесторами с большими карманами, готовыми финансировать то, что, по их мнению, будет прибыльным вложением. Крупные фирмы венчурного капитала (ВК) часто стремятся получить более чем трехкратную прибыль, когда они инвестируют в быстрорастущие компании, разрушающие рынок. Однако иногда эти фирмы упускают или предпочитают инвестировать в стартап, который терпит неудачу. Это вредит их марже прибыли, и они должны компенсировать свои убытки успешными инвестициями. Цель этого проекта — классифицировать компании как успешные (приносящие прибыль венчурной фирме) или неудачные (не оправдывающие инвестиционных ожиданий), а затем обучить модель машинного обучения для прогнозирования новых данных.

Я собрал наши данные из Crunchbase, одной из ведущих мировых баз данных частных рынков. Наш запрос касался компаний США, основанных в период с 2005 по 2013 год, которые содержали данные о ключевых характеристиках, таких как операционный статус, статус приобретения и статус IPO.

Из этого поиска мы можем собрать 7 569 компаний в наш набор данных, прежде чем мы начали очищать данные. Фрейм данных имел 123 функции после установки индекса в качестве названия организации. Мы начали с удаления всех функций, в которых отсутствовало более 50% данных, и создания столбца класса со значением по умолчанию 0, поскольку мы еще не установили критерии успеха. Было интересно наблюдать за распределением компаний по штатам, в которых они были основаны, по всей территории США, причем Калифорния во многом лидировала.

Исследовательский анализ данных:

Оттуда мы построили гистограммы, чтобы исследовать данные немного дальше.

Чтобы установить критерии успеха, мы ссылались на научные статьи, и мы определили наши критерии успеха как компании, которые были публично проданы, имели более 7 раундов финансирования или имели раунд финансирования в 2018 году или позже. Идея, стоящая за этими критериями успеха, заключалась в том, что если компания торгуется на бирже, она достаточно велика и открывает возможность выхода после 180-дневного периода блокировки. Если у компании было более 7 раундов финансирования или был раунд финансирования после 2018 года, предполагалось, что они продолжают расти и увеличивать свои инвестиции по более высокой оценке. Это также открывает возможность выхода для венчурных фирм, чтобы извлечь выгоду из прибыли.

Следуя первоначальным этапам исследования данных, мы углубились в фирмы венчурного капитала, у которых было наибольшее количество успешных компаний, и в каких отраслях было наибольшее количество венчурных инвестиций.

Как и ожидалось, программное обеспечение, SaaS и общие технологии были ведущими отраслями роста, поскольку мы наблюдали глобальную трансформацию технологий в 2005–2013 годах.

Предварительная обработка данных:

Затем мы погрузились в разработку различных моделей машинного обучения, чтобы классифицировать наши данные как успешную или неуспешную компанию. Чтобы преобразовать данные в согласованный формат для моделей ML, данные были очищены с использованием горячего кодирования, векторизации tf-idf (частота термина — обратная частота документа) и преобразования типов объектов. Поскольку данные не были разделены 50/50 между успешными и неуспешными компаниями, мы использовали метод недостаточной выборки из пакета imblearn в python.

Мы пробовали различные модели в нашем наборе данных, чтобы прогнозировать успешные компании, не перегружая данные. Сложность модели и время обучения также были факторами в этом случае, поскольку мы хотели иметь возможность повторять выбор гиперпараметров. После создания модели для каждого алгоритма мы проанализировали точность модели как на обучающем, так и на тестовом наборе, а также построили график матрицы путаницы, чтобы определить, какие модели будут лучшим выбором для нашего варианта использования. Ниже приводится описание каждого из используемых нами алгоритмов, а также некоторые гиперпараметры для каждого случая.

Кроме того, мы использовали подход поиска по сетке, чтобы определить наилучшую оптимизацию разделения теста и обучения по комбинированному показателю отзыва набора тестов и обучения.

Случайный лес:

Мы внедрили алгоритм случайного леса от sklearn, чтобы реализовать обучение базовому дереву решений в нашем наборе данных. Кроме того, мы хотели использовать атрибут важности функции из случайного леса. Это позволило нам определить наиболее важные функции, используемые для разделения данных. Используя этот список функций, в пятерку наиболее важных функций вошли:

Мы использовали начальную загрузку, а также Out of Bag Score, чтобы определить, какие функции имеют наибольшее значение. Наша оценка Out of Bag составила 0,7482, что близко к точности наших тренировок и тестов.

Используя наиболее важные характеристики, мы смогли создать список частных компаний, которые соответствовали важным критериям успеха. Целью этого было создание списка компаний, готовых к венчурным инвестициям на поздних стадиях. Используя отраслевые критерии и диапазон доходов, образец нашего списка прилагается здесь:

«UiPath», «Automattic», «Interos», «appfire», «Bossa Nova Robotics», «DialogTech», «Nayax», «Performive», «RockYou», «Persivia»

Это будет использоваться венчурной фирмой для выбора следующих победителей на основе прошлых успехов.

Нейронная сеть:

Следуя нашей модели Random Forest, мы стремились реализовать MLPClassifier от Sklearn. Мы выбрали 100 скрытых слоев и 50 максимальных итераций с ранним остановом, установленным на true. После 11 итераций наша модель перестала улучшаться и была остановлена с оценкой проверки 0,728814. Мы решили использовать функцию потерь SGD по умолчанию. Мы знали, что нейронные сети обычно превосходят менее сложные модели на большом наборе данных. В этом случае наш набор данных можно было бы классифицировать как средний, но наши лучшие результаты были получены из модели нейронной сети.

Логистическая регрессия:

Мы использовали нашу модель логистической регрессии в качестве базового сравнения производительности других моделей. Так как это более простая модель, чем другие, но она очень хорошо работает с нашим непрерывным набором данных.

Повышение:

Мы хотели внедрить методы повышения в нашем наборе данных, чтобы определить, улучшит ли этот метод результаты за счет составления слабых классификаторов. Мы начали с алгоритма AdaBoost, чтобы попытаться улучшить производительность нашей модели с помощью нескольких слабых классификаторов. В этом случае мы решили использовать параметры по умолчанию со 100 оценщиками. Получив аналогичные результаты для других моделей, мы попытались использовать повышение градиента. Для нашего алгоритма повышения градиента мы решили использовать 100 оценок, скорость обучения, равную 1, и максимальную глубину, равную 1. Оба алгоритма повышения дали аналогичные результаты, при этом повышение градиента немного превзошло AdaBoost в этом случае. Полную таблицу результатов можно увидеть в разделе результатов для каждого алгоритма.

КНН:

KNN — это ленивый ученик и непараметрическая модель, на которую сильно влияют гиперпараметры k и c. Мы решили использовать 7 ближайших соседей и значение c по умолчанию. KNN работал лучше, чем логистическая регрессия, на обучающем наборе, но не на тестовом наборе, вероятно, из-за меньшего количества данных для обучения.

Ансамбль — мягкое голосование и жесткое голосование:

В этот ансамбль мы объединили 7 оценщиков. В этом случае использовались 7 оценок: Random Forest, Nueral Net, LinearSVC, логистическая регрессия, AdaBoost, Gradient Boosting и KNN. Мы решили использовать параметры по умолчанию как для мягкого, так и для жесткого голосования. Мягкое голосование в целом работает лучше, чем жесткое, благодаря дополнительной гибкости.

Результаты:

Наша основная метрика для оценки успеха модели — это показатель отзыва или истинный положительный показатель. Фирмы венчурного капитала рассчитывают понести некоторые убытки, если они смогут правильно выбрать успешные компании, способные намного превысить любые убытки. Таким образом, отзыв имеет гораздо большее значение, чем точность, чтобы не упустить возможность, особенно такого единорога, как Facebook, Uber или UiPath.

Из приведенной выше таблицы нейронная сеть показывает лучшие результаты в тестовом наборе с очень похожими оценками на обучение. Такая небольшая разница между двумя оценками указывает на то, что эта модель не подходит для тренировочного набора и является хорошей моделью для использования. Нейронные сети часто превосходят другие модели, особенно по мере увеличения количества функций и точек данных.

Обсуждение:

Наша модель может успешно классифицировать компании на основе заданных показателей с высокой степенью точности по сравнению с базовым уровнем других исследовательских работ (примерно на 7% лучше). Одна из причин этой разницы заключается в том, что большинство газет не уделяют такого же внимания американским компаниям, как мы, и вместо этого используют международные данные. Хотя за границей также могут быть успешные стартапы, сравнение компаний, которые не сталкиваются с такими же регуляторными рисками, предпринимательской поддержкой или другими внешними факторами, не является сравнением яблок с яблоками, и модель в целом будет работать хуже. У большинства венчурных капиталистов будет своя область знаний, и эта модель может быть использована для дальнейшей помощи им в исследовании стартапов в США.

Полный код прикреплен здесь: https://github.com/colaso96/Predicting_Venture_Capital_Investment_Success