Эта статья является частью серии Data Test Kitchen от Discovery Hub. Мы изучаем, как наука о данных и машинное обучение могут помочь в прогнозировании новых инноваций и их социальных последствий.

Стартапы, поддерживаемые венчурными инвестициями, являются важной частью инновационной экосистемы, поскольку они выводят на рынок идеи с высокой степенью риска и проверяют их в реальном мире. Исследования показывают, что на фирмы, поддерживаемые венчурным капиталом, приходится большая часть расходов на исследования и разработки в США. В то время как многие стартапы в конечном итоге распадаются, некоторые из них растут, оказывая значительное влияние.

В этом блоге мы экспериментируем с использованием машинного обучения, чтобы предсказать, какие компании с большей вероятностью добьются успеха, причем успех определяется как получение будущих венчурных инвестиций, приобретение или первичное публичное размещение акций (IPO). Мы использовали метод машинного обучения, называемый деревьями решений с градиентным усилением, и добились точности прогнозирования 88% (51% истинных положительных результатов и 94% истинных отрицательных результатов).

Наша цель состоит не столько в том, чтобы предсказать следующего единорога, сколько в том, чтобы изучить возможности прогнозирования будущих тенденций в таких секторах, как зеленые технологии, инновации в области здравоохранения и образовательные технологии, которые будут играть решающую роль в наших трех миссиях.

Нас побудило продолжить это направление исследований наш вывод о том, что венчурные инвестиции в низкоуглеродные технологии отопления оказались ниже, чем ожидалось, по сравнению с другими зелеными технологиями в Великобритании. Это, естественно, привело к вопросу о том, можно ли предвидеть более высокий рост в будущем, особенно с учетом того, что наше исследование также показало относительно большой рост государственного финансирования исследований и разработок в этих технологиях за последние годы.

В этой части, в качестве одного из шагов к количественному подходу к этому вопросу, мы тестируем метод машинного обучения, чтобы увидеть, способен ли он различать модели успешных компаний.

Цель этой модели прогнозирования не в том, чтобы заменить принятие решений человеком при инвестировании. Вместо этого этот инструмент можно использовать в дополнение к человеческому опыту, чтобы выделить перспективные отрасли и предприятия, за которыми следует наблюдать, и предложить потенциальные факторы, связанные с их успехом, которые затем можно рассмотреть более подробно.

Сопутствующая статья рассматривает этот вопрос под другим углом, используя методы каузального вывода, чтобы найти влияние исследовательских грантов на успех компании.

Использование данных об инвестициях, грантах и ​​местоположении для создания набора данных о начинающих компаниях

Модель прогнозирования основана на наборах данных и инфраструктуре данных, разработанных в рамках проекта Innovation Sweet Spots и других проектов картирования инноваций, осуществляемых Nesta’s Data Analytics Practice.

Мы использовали три источника данных:

  1. Crunchbase — база бизнес-аналитики с данными о венчурных инвестициях в частные компании.
  2. Ворота в исследования (GtR) — Данные об исследовательских грантах, предоставленных UKRI частным компаниям, академическим учреждениям и другим организациям.
  3. Пространственные данные BEIS/Nesta R&D — Показатели эффективности региональных исследований и разработок в Великобритании (на уровне NUTS2). Эти данные были добавлены после консультации с коллегами из Nesta Impact Investments и Mission Studio, которые подчеркнули важность инновационной экосистемы, окружающей компанию.

Данные Crunchbase и GtR UKRI предоставляют дополнительную информацию об инвестиционной деятельности компаний и исследованиях и разработках. Однако эти наборы данных не связаны по умолчанию, поэтому нам пришлось сопоставить компании в Crunchbase с организациями, связанными с исследовательскими проектами в GtR.

Одна сложность заключается в том, что названия компаний могут быть написаны немного по-разному. Например, компания, зарегистрированная как Nova Pangea Technologies (UK) Ltd в Crunchbase, записана как Nova Pangea Technologies в GtR, поэтому их нельзя точно сопоставить. Поэтому мы использовали нечеткое сопоставление для выявления близких, но неточных совпадений в обоих наборах данных. Библиотека Python для нечеткого сопоставления была разработана Nesta и называется jacc-hammer.

После сопоставления компаний мы создали набор данных, содержащий более 30 000 британских компаний с информацией о компании, учредителях, инвестициях, инвесторах, исследовательских грантах и ​​показателях на основе местоположения (всего 160 различных входных переменных).

Обучение модели на исторических данных

Наша модель использует подготовленный набор данных о характеристиках компании в качестве входных данных и выводит прогнозируемую вероятность будущего успеха компании (от 0 до 1, где 0 означает отсутствие успеха в будущем, а 1 — чрезвычайно уверенный прогноз успеха в будущем). .

Модель обучалась на исторических данных о послужном списке компаний за восемь лет, с начала 2011 г. до конца 2018 г. Мы включили компании, которые еще не были приобретены или не проводили IPO за это время. Затем мы оценили, были ли эти компании успешными (согласно нашим критериям успеха) в период с 2019 по 2022 год. Во время обучения информация, доступная для модели, была ограничена тем, что было бы доступно в конце 2018 года. Этот метод известен как ' тестирование на истории.

После обучения модели мы использовали данные за последний восьмилетний период (2014–2022 гг.), чтобы сделать прогнозы относительно успеха компании с 2022 г. и далее. Конкретный выбор восьмилетнего периода времени позволяет учитывать более длительное время разработки, необходимое для глубоких технологий, таких как зеленое отопление и другие зеленые технологии.

Создание модели дерева решений с градиентным усилением

Для модели мы использовали классификатор дерева решений с градиентным усилением (GBDT). Классификаторы GBDT представляют собой ансамбль деревьев решений, которые по отдельности имеют плохую прогностическую эффективность, но в сочетании друг с другом создают сильную прогностическую модель. Обычно они хорошо работают с табличными данными, которые мы используем здесь.

Мы использовали реализацию градиентного классификатора LightGBM, которая была разработана с функциями, помогающими ускорить процесс обучения.

Мы провели поиск по сетке, чтобы найти наиболее эффективные гиперпараметры. Важным гиперпараметром был scale_pos_weight. В нашем случае это регулирует соотношение успешных и неуспешных компаний, используемых для обучения модели. Набор данных несбалансирован и содержит гораздо больше записей о неудачных компаниях, чем об успешных. За счет увеличения числа успешных компаний, показанных модели на тренинге, это привело к значительному увеличению показателей в истинно положительном показателе.

Как наша модель предсказала успех стартапа

При тестировании обученной модели на проверочном наборе она достигла 51% истинного положительного результата (скорость, по которой фактически успешные компании прогнозируются как успешные) и 94% истинно отрицательного показателя (показатель, что фактически неуспешные компании прогнозируются как неуспешные). Это эквивалентно общему уровню точности 88% (т. е. количеству истинных положительных и истинных отрицательных результатов, деленному на количество всех прогнозов).

Если мы возьмем 5% самых достоверных прогнозов из проверочного набора, это даст 361 компанию, которая, по прогнозам, будет успешной. Из них 271 действительно оказались успешными (что соответствует точности 75%).

В противоположность этому, взятие случайной выборки из 5% всех компаний в наборе для проверки дает только 47 успешных компаний (что соответствует более низкой точности 13%). Следовательно, в этом случае использование прогностической модели обеспечивает улучшение выявления более чем в пять раз большего числа успешных компаний по сравнению со случайной выборкой.

Интерпретация того, какая информация важна для модели

Эти типы моделей могут быть трудными для интерпретации и понимания. Чтобы помочь в этом, мы использовали библиотеку Python объяснительная панель инструментов, чтобы проанализировать прогнозы и выделить, какую информацию модель считает важной при принятии решения о том, будет ли компания преуспевать.

Использование средних абсолютных значений SHAP для определения вклада входных признаков в прогнозы модели

Итак, какие входные переменные модель считает наиболее важными для прогнозирования будущего успеха компании? Мы можем предоставить ответ, используя средние абсолютные значения SHAP, которые указывают на величину, на которую переменная вызывает увеличение или уменьшение прогноза по сравнению с базовым значением. Например, переменная, указывающая возраст компании, в среднем сдвигает вероятность прогноза на +/- 0,06.

В целом, наиболее важными характеристиками в соответствии со значениями SHAP являются:

  • Возраст компании (n_months_since_founded)
  • Отрасль, в которой работает компания (group)
  • Сколько учредителей у компании (founder_count)
  • Есть ли у компании страница LinkedIn или нет (has_linkedin_url)
  • Последняя сумма частных инвестиций, полученных в последнем раунде финансирования (last_investment_round_gbp)
  • Количество месяцев с момента последней инвестиции компании (n_months_since_last_investment)

Модель не обнаружила, что переменные, основанные на местоположении BEIS / Nesta R&D, очень важны при прогнозировании, при этом средние абсолютные значения SHAP находятся в диапазоне от 0,0026 до 0,0002.

Переменные, связанные с финансированием исследовательских грантов, также имеют относительно низкие средние абсолютные значения SHAP. Наиболее важной переменной, связанной с грантами, является получение компанией гранта UKRI (has_received_ukri_grant) со значением 0,0015. Интересно, что независимо от того, получила ли компания какой-либо грант (has_received_grant), среднее абсолютное значение SHAP равно 0,0, что означает, что она не способствует прогнозу. Чтобы исследовать это дальше, мы экспериментировали с обучением другой модели с переменной has_received_grant, но исключая все другие переменные, связанные с грантами. В этих условиях has_received_grant имел дополнительную прогностическую ценность со средним абсолютным значением SHAP 0,0016. Это говорит о том, что в случае нашей основной модели прогнозирования информация о has_received_grant была избыточной, а это означает, что ее можно узнать из других переменных, связанных с грантами, и поэтому она не предлагала дополнительной прогностической ценности (что в некоторой степени ожидаемо в этом случае, когда несколько связанных переменных).

Предыдущая работа по анализу венчурных инвестиций на основе данных сообщала об аналогичном контрольном списке соответствующих характеристик стартапа, которые могли бы помочь инвесторам выбрать компании с большей вероятностью успеха, такие как количество учредителей и инвесторов, наличие у компании Страница LinkedIn, возраст компании, приезжают ли основатели из разных стран (не эквивалентная функция в нашем наборе данных) и привлеченная сумма инвестиций на данный момент.

Значения SHAP также можно использовать для упрощения модели. Если бы модель использовалась пользователями в качестве инструмента для прогнозирования успеха отдельных компаний, текущее количество функций (160) было бы слишком большим, чтобы кто-то мог вводить их вручную. Значения SHAP можно использовать для определения переменных, которые можно удалить (с низкими значениями SHAP), сохраняя при этом приемлемый уровень производительности.

Понимание того, как изменения входных значений влияют на прогнозы: графики зависимости SHAP

Хотя абсолютные значения SHAP указывают на общую важность входных функций для прогнозов модели, они не показывают влияние на прогноз увеличения или уменьшения функции. Для этого мы можем проверить графики зависимостей SHAP. Эти графики можно использовать, чтобы узнать об отношениях, которые модель изучила между входными функциями и прогнозируемым результатом.

На приведенной ниже диаграмме показаны баллы для каждой компании и то, увеличился или уменьшился возраст компании (в месяцах) их прогнозируемый будущий успех. Это показывает, что по мере того, как компании стареют, модель считает, что они с меньшей вероятностью будут иметь успех в будущем.

Другой пример — количество грантов, полученных компанией (гранты — это форма неакционерного инвестирования). Здесь получение одного гранта увеличивает прогнозируемый успех. Однако для компаний, получающих 2–5 грантов, более неясно, это может иногда увеличивать, а иногда уменьшать прогнозируемый успех. Когда компания получает более пяти грантов, ее прогнозируемый будущий успех снижается.

Вклад входных признаков в конкретные прогнозы

Мы также можем посмотреть на вклад в вероятность успеха для отдельных компаний. На приведенной ниже диаграмме показан вклад функций в прогноз успеха 53,7% для Ventive, компании, работающей над пассивной вентиляцией с рекуперацией тепла. Для Ventive три функции, которые больше всего увеличили прогноз:

  • last_investment_round_gbp = £600,000 → +15%
  • founder_count = 1 → +12%
  • group (промышленность) = бытовая электроника → +7%

И три особенности, которые больше всего уменьшили прогноз:

  • n_months_since_last_investment = 29 → -13%
  • n_months_since_founded = 96 → -10%
  • has_phone = 1 → -4%

Что, если анализ

Панель объяснителя также позволяет нам выполнять анализ «что, если», чтобы увидеть, как изменение некоторых данных о конкретной компании повлияет на прогноз будущего успеха модели. Например, мы можем посмотреть на зеленую технологическую компанию Echion, которая работает над производством быстрозаряжающихся аккумуляторов и успех которой предсказан моделью с вероятностью 88%. «Эхион» получил грант от UKRI. Если бы она не получила этот грант, модель уменьшила бы свой прогноз успеха на три процентных пункта. Компания получила один раунд начального финансирования на сумму 1,5 миллиона фунтов стерлингов. Если бы компания получила 2 миллиона фунтов стерлингов, модель предсказала бы 94-процентный шанс на успех (увеличение на шесть процентных пунктов).

Обратите внимание, что, хотя эти типы анализа могут пролить свет на внутреннюю работу прогностической модели, они показывают только ассоциативные отношения между признаками, изученными моделью, и не указывают на реальные причинно-следственные связи.

Делать реальные прогнозы

Мы также использовали модель для создания набора иллюстративных прогнозов относительно успеха компаний после апреля 2022 года. Вот список из 20 самых достоверных прогнозов модели, касающихся зеленых компаний в Великобритании. Этот список размещен на платформе Crunchbase, что позволяет нам отслеживать любые новые инвестиции и видеть, как модель работает в реальном мире. С момента создания списка в три из этих компаний были вложены дополнительные инвестиции:

  • Britishvolt, производитель аккумуляторов с низким содержанием углерода
  • Protium, разработчик проектов зеленого водорода и топливных элементов
  • Oxford Quantum Circuits, компания, занимающаяся квантовыми вычислениями, разрабатывающая такие технологии, как новые батареи.

Здесь следует подчеркнуть, что эта информация ни при каких обстоятельствах не должна рассматриваться как рекомендация по инвестированию. Эти прогнозы могут послужить сигналом для интересных компаний, за которыми стоит следить. Это не заменяет процесс, через который проходят инвесторы при инвестировании.

Что дальше?

Эту прогнозную работу можно было бы дополнительно развить, расширив диапазон источников данных для сбора такой информации, как доходы компании, патенты, текстовые данные из описаний компаний и разнообразие навыков персонала. Наши обсуждения с коллегами из команд Nesta Impact Investments и Mission Studio также выявили важные факторы, которые гораздо сложнее зафиксировать с помощью данных, например, действительно ли компания решает болевые точки клиента. Кроме того, мы использовали упрощенную меру успеха компании, и инвесторы также хотели бы учитывать, например, отдачу от своих инвестиций.

Таким образом, цель тестирования этой модели прогнозирования состоит не в том, чтобы заменить принятие решений человеком при осуществлении инвестиций. Вместо этого его можно использовать для поиска потенциально перспективных секторов и предприятий, за которыми следует наблюдать, и для облегчения разработки политики поддержки роста и инноваций. Например, если стартапы в определенном секторе демонстрируют преимущественно низкую вероятность прогнозируемого успеха, это может сигнализировать о необходимости лучше понять барьеры на пути к успеху в этом пространстве и ввести пакеты грантов или другие стимулы. Мы планируем применить эту модель в нашей будущей работе Innovation Sweet Spots, чтобы дополнить анализ исторических тенденций взглядом на будущее развитие компаний в этой области.

При всем при этом следует иметь в виду, что представленный здесь анализ не дает причинно-следственных объяснений. Чтобы исследовать этот угол, нужно использовать причинно-следственные методы, которые мы исследуем в нашем следующем блоге, чтобы оценить влияние исследовательских грантов на успех стартапа.

Спасибо Карлису Кандерсу за его руководство на протяжении всего проекта и его вклад в этот блог. Мы благодарим отдел аналитики данных Nesta за предоставление шлюза для исследований и данных бизнес-аналитики Crunchbase. Мы благодарны Алексу Гилберту и Алексу Хуку за их идеи и советы о стартапах и инвестициях. Мы благодарим Селию Хэннон, Джорджа Ричардсона, Шивон Чан и Ханну Спенсер за их полезные комментарии к этой статье.

Если вы хотите обсудить проект подробнее, напишите об этом в комментариях ниже. Код этой работы доступен на Github здесь и здесь. К сожалению, к набору данных Crunchbase нельзя предоставить общий доступ, так как он содержит проприетарные данные, в то время как Gateway to Research и пространственные данные исследований и разработок BEIS/Nesta находятся в открытом доступе.

Этот документ был составлен Nesta's Discovery Hub и не является рекомендацией по инвестированию, финансовой рекламой или алгоритмом принятия инвестиционных решений, и на него нельзя полагаться как на таковой; это экспериментальный анализ данных венчурных инвестиций, ориентированный на компании, связанные с миссиями Nesta. Компании, упомянутые в этой статье, приводятся исключительно в качестве примеров, которые помогают продемонстрировать подход к анализу, и их включение не должно интерпретироваться как одобрение или указание на инвестиционную привлекательность со стороны Nesta.