Применение трансформаторов для оценки потенциально успешных стартапов

Экспериментальное исследование, продвигающее использование мелкозернистых многомерных временных рядов.

Поскольку инвестиционные фирмы стремятся инвестировать в перспективные компании, они постоянно сталкиваются с критической задачей оценки шансов на успех для них. В венчурном капитале эту задачу часто называют прогнозированием успеха стартапа (SSP).

«Поиск наиболее многообещающих стартапов с вероятностью успеха для инвестиций на ранней стадии — это святой Грааль венчурного капитала, основанного на данных. Мы постоянно работаем с этим в EQT Ventures и Motherbrain, но использовать модели для этого сложно: данные о стартапах скудны и зашумлены, а редкие успехи могут быть доказаны только спустя годы после первоначальных раундов финансирования. Кроме того, определение успеха меняется со временем. Чтобы модель прогнозирования была устойчивой, она должна определять постоянные, лежащие в основе сигналы, которые выдерживают испытание временем и повсеместно определяют успешные компании на ранних стадиях».

– Антон Аск Острём, руководитель отдела аналитики, EQT Ventures

Прогнозирование успеха стартапа как проблема глубокого обучения

Традиционно фирмы венчурного капитала в основном полагались на аналитические, статистические или ручные методы поиска новых сделок для стартапов, но в последнее время для этой задачи все чаще используется глубокое обучение (ГО). Одна из причин заключается в том, что сложность задачи требует делать прогнозы на основе неполной информации — в основном из-за того, что стартапам не хватает общедоступной информации на ранних стадиях.

Кроме того, корреляции и сигналы, указывающие на успех, могут существовать в совершенно разных конфигурациях, в зависимости от рассматриваемого стартапа. Следовательно, метод на основе DL должен иметь возможность успешно моделировать сложные корреляции между входными функциями и часто корреляции между многочисленными различными входными функциями, чтобы компенсировать нехватку данных. Эти методы, основанные на глубоком обучении, также могут просеивать гораздо больше данных по сравнению с их альтернативами без глубокого обучения.

Добавление дополнительной сложности к проблеме SSP связано с важностью времени. Эффективный метод должен быть независим от фазы, что означает, что он находит потенциально успешный запуск независимо от того, на какой фазе находится запуск во время оценки. Поэтому, даже если успешный стартап только что основан или только вступает в фазу роста, его следует правильно идентифицировать.

Подводя итог, SSP как проблема DL имеет следующие три проблемы:

Разреженные и зашумленные данные из множества различных источников данных.
Требуются сильные способности к обучению представлению сложных и разнообразных данных.
Выявление стартапов должно осуществляться независимо от фазы.

Соображения относительно использования временных функций

Захват временных корреляций между различными функциями важен для проблемы SSP. Поэтому многие существующие методы используют именно временные ряды — последовательность значений. При использовании данных временных рядов прогнозирование может потенциально основываться на времени, порядке и частоте этих последовательных значений, что является важной характеристикой SSP.

В прошлом статистические методы удивительно доминировали в области классификации временных рядов, и только недавно методы на основе глубокого обучения, такие как сверточная нейронная сеть (CNN), долговременная кратковременная память (LSTM) или Gated Recurrent Подразделение (ГРУ) догоняло по производительности. Это особенно заметно в контексте многомерной классификации временных рядов, где сложность проблемы возрастает. В отличие от одномерной классификации временных рядов, модель должна фиксировать закономерности в нескольких временных рядах и, как мы надеемся, повысить производительность. Одномерную структуру также можно расширить, включив несколько признаков временных рядов по отдельности, что является общим решением, если доступные признаки временных рядов не имеют одинаковой частоты.

Еще одним соображением для SSP является выбор стратегии оценки. Ранее мы упоминали о проблеме правильной идентификации стартапов независимо от фазы их жизненного цикла. Чтобы решить эту проблему, можно выбрать стратегию разделения данных, ориентированную на инвесторов, которая заменит традиционную стратегию случайной выборки. Конкретно, мы экстраполируем одну выборку на несколько выборок (каждая из которых представляет компанию на разных этапах времени) и строим набор данных для оценки только на самых последних выборках. В результате ожидается, что модель будет действовать независимо от фазы, а также лучше походить на реальное использование модели профессионалами в области инвестиций.

Преобразователь для классификации временных рядов

В документе от 2021 года авторы представили метод и архитектуру на основе преобразователя, называемую TST, для классификации многомерных временных рядов. Архитектура показала многообещающие результаты на общедоступных наборах данных временных рядов, даже превзойдя современные статистические методы и методы на основе глубокого обучения. Однако TST еще предстояло адаптировать и протестировать на реальных данных со всеми сопутствующими проблемами, особенно в области инвестиций.

Именно здесь мы в Motherbrain увидели потенциал для улучшения наших существующих моделей подсчета очков. Сосредоточив внимание исключительно на функциях временных рядов из различных источников данных — и метках наших штатных специалистов по инвестициям — архитектура TST была изменена и реализована для дальнейшего улучшения наших моделей оценки.

Сравнение производительности

При обучении и оценке помеченного набора данных EQT было получено несколько интересных результатов. Во-первых, была реализована одномерная модель GRU, в которой каждой функции временного ряда был присвоен отдельный блок GRU. Кроме того, был реализован многовариантный GRU, в котором все функции имеют один общий блок GRU. Это было сделано, чтобы определить, связаны ли какие-либо наблюдаемые улучшения с Transformer или просто с введением самого многомерного обучения.

В нашем тестировании модель TST показала увеличение на 12% производительности теста (с 0,81 до 0,92 AUC) по сравнению с многомерным GRU и на увеличение на 47% ( 0,62 AUC) по сравнению с одномерным GRU. Модель также была протестирована на двух общедоступных наборах данных из общедоступного архива UCR (наборы данных Этанол и PEMS-SF). Цель состояла в том, чтобы получить еще больше информации о том, как модель работает с различными наборами данных. TST снова показал самую высокую среднюю точность среди этих наборов данных.

Время обучения
Кроме того, стоимость увеличения времени обучения для TST была ограничена. Хотя GRU является самой простой архитектурой в вычислительном отношении, для TST наблюдалось только 4-кратное увеличение времени обучения по сравнению с многомерным GRU. Кроме того, для одномерного GRU TST даже сокращал время обучения более чем в 15 раз. Более того,механизм многозадачного внимания Transformer позволяет сети распараллеливать свои вычисления на современных графических процессорах, чтобы сократить время обучения и, следовательно, позволяет обучать модели на значительно больших наборах данных.

Стабильность обучения
Несмотря на то, что Transformer потенциально сложен и нестабилен в обучении, мы не сталкивались с этими проблемами. На самом деле, TST была самой стабильной из всех четырех моделей, обеспечивая самое низкое стандартное отклонение среди различных тренировочных циклов.

Другие потенциальные преимущества

Помимо достижения более высокой производительности прогнозирования, Transformer также может принести другие потенциальные преимущества.

Лучшая объяснимость
Механизм внимания по своей сути создает взвешенную матрицу того, как его веса распределяются по входной последовательности. Следовательно, на уровне экземпляра можно получить представление о том, на каких частях последовательности фокусируется модель, и, в свою очередь, добиться более высокой объяснимости модели в целом.

Использование вложений
Благодаря использованию архитектуры кодировщик-декодер он по своей сути использует вложения и поэтому более эффективно интегрируется, например, с языковой моделью для создания мультимодальной архитектуры. Кроме того, вложения, изученные моделью, могут использоваться для других последующих задач.

Возможность неконтролируемого обучения
Большим вкладом в исходную статью TST было введение неконтролируемого скрытого обучения. Маскируя части последовательностей временных рядов и обучая сеть прогнозировать замаскированную часть, модель теоретически изучит более эффективное представление, прежде чем будет точно настроена на помеченных данных. Хотя этот подход еще не был тщательно протестирован нами, он может иметь наибольший потенциал, поскольку позволит модели обучаться на значительно более обильных и дешевых немаркированных данных.

Заключительные слова

По своей природе SSP представляет собой сложную проблему, которая требует просеивания огромных, но разреженных объемов данных, чтобы найти в мире стартапы, демонстрирующие реальный потенциал. Мы в EQT уже давно видели потенциал в помощи нашей платформе Motherbrain, управляемой данными, и ее моделях оценки.

TST, который мы исследовали, показывает перспективность моделей на основе Transformer для SSP в будущем, где результаты показывают, что это будет эффективная альтернатива архитектуре GRU для классификации многомерных временных рядов в области инвестиций. Архитектуру также можно легко обобщить для работы в других инвестиционных контекстах, таких как фонды роста и прямых инвестиций, и, следовательно, предоставить некоторые интересные возможности в будущем.