Как оценивать стартапы с помощью машинного обучения: часть III

Любители данных из сообщества венчурных капиталистов наконец-то получили свой информационный бюллетень. Подпишитесь здесь!

Как оценивать стартапы с помощью машинного обучения

Часть I - Введение

Часть II - Платформа с открытым исходным кодом GASP

Часть III - GASP для прогнозного моделирования

Структура GASP для стандартизации сбора данных

В Части II мы объяснили мотивацию необходимости стандартизировать сбор данных и объяснили, как это сделать с помощью нашей платформы с открытым исходным кодом GASP. Конечная цель этой структуры - позволить любому инвестору создать свою собственную базу данных поддающейся количественной оценке информации о запуске. Но неважно, насколько богата и обновлена ваша стартовая база данных, если вы используете ее только для хранения информации и время от времени просматриваете ее, тогда вы упускаете половину той ценности, которую вы можете из нее получить. Всегда помните золотое правило: данные ценны только тогда, когда они превращаются в идеи, не собирайте их. В самом деле, после сбора большого количества данных о запуске с помощью GASP ваша способность получать информацию вручную, естественно, уменьшается. Здесь на арену выходит машинное обучение!

В этой статье мы рассмотрим, как машинное обучение может помочь вам разобраться во всей информации о запуске. Эта задача лучше подходит для машин, чем ручной анализ. Проверьте Часть I нашей серии статей, чтобы взвесить плюсы и минусы использования прогнозного моделирования в данном конкретном контексте! Сегодня мы проиллюстрируем закулисный процесс прогнозного моделирования с использованием Аналитической платформы PreSeries (на базе BigML). Инвесторы и другие бизнес-пользователи предпочитают использовать нашу Панель управления или иметь прогностические модели, работающие непосредственно в их собственном программном обеспечении, подключенном к их CRM, или иначе. Подробнее о доступности результатов в конце статьи.

Платформа PreSeries абстрагирует большую часть сложности, присущей прогнозному моделированию, и позволяет нам сосредоточиться на самом важном: простом создании прогнозов, а не разработке данных!

Шаг 1 - от таблиц GASP к наборам данных

Если вы уже используете платформу с открытым исходным кодом GASP, у вас уже должно быть большое количество показателей запуска, хранящихся внутри, в электронных таблицах или в базе данных. Ниже приведен пример того, как настроенный GASP может выглядеть в электронной таблице. Для простоты здесь мы сократили количество функций до 20, а охватываемые периоды времени до 2 (см. Часть II для полной картины).

В приведенном выше конкретном примере рассматривается один стартап, который поднял Seed-раунд. В реальной жизни вы будете иметь дело со многими стартапами в разные моменты времени, и здесь работа с таблицами ясно показывает ограничения. Таблицы (или формы в целом) отлично подходят для ввода данных, но если вам нужно иметь дело с сотнями или более GASP, управлять ими будет невозможно. Вот почему мы рекомендуем, чтобы в конечном итоге собранная информация хранилась в вашей собственной частной базе данных, такой как те, которые мы развертываем в PreSeries (спросите нас, мы автоматизируем это для вас). Имея все это под одной крышей, теперь вы можете объединить все в один набор данных, что является необходимым шагом перед выполнением любой задачи прогнозного моделирования.

Теперь, когда у вас все готово, нам нужна цель. Что мы хотим предсказать? Отсутствие четкого вопроса для ответа - это 4-я самая распространенная проблема, с которой сталкиваются практики машинного обучения. Его необходимо четко определить, чтобы любой подход к моделированию имел смысл, и ответ будет зависеть от ваших инвестиционных критериев как венчурного капитала.

Например, если вы являетесь посевным инвестором, возможно, наиболее важным прогнозом, на который вы хотите получить ответы, является: «Насколько вероятно, что этот кандидат поднимет посевной раунд?».

Для целей этой статьи давайте представим, что вы посевной инвестор (подождите! Не так много данных о посевных стартапах… . "В чем проблема?" вы можете спросить себя. «Чем больше претендентов, тем больше будет выбор. Изобилие - не проблема! ». Что ж, связаться в наши дни легко, но обработка сделок со скоростью, необходимой для того, чтобы не упустить хорошую инвестиционную возможность, - нет.

Неважно, сколько возможностей у вас появится, если вы пропустите скрытые жемчужины. Более того, вы не можете провести собеседование со всеми, вам нужен надежный процесс предварительного отбора, чтобы выделять время только для самых перспективных соискателей. Другими словами, вы хотите ответить на следующий вопрос: Следует ли мне взять интервью у этого стартапа? Чтобы ответить на этот вопрос, давайте начнем с данных. Набор данных, который мы будем использовать в качестве примера, частично основан на данных Angel List (стартапы в Сан-Франциско), полученных из Kaggle.

Шаг 2 - От набора данных к прогнозной модели

В PreSeries мы автоматизируем для вас все нижеперечисленное, а вот краткий обзор нашего подхода к машинному обучению с использованием аналитической платформы. Пользователи PreSeries имеют доступ к аналитической платформе (панель инструментов и API), включая все онлайн-данные и прогнозные модели, созданные для вас в частном порядке. Для получения более качественных и точных моделей прогнозирования вам предлагается включить свои собственные данные, а если вы планируете индивидуальное частное развертывание, запросите наше решение для ОС PreSeries здесь.

Прежде всего, импорт набора данных вручную на PreSeries Analyst Platform действительно прост (API доступен для автоматизации). Просто зайдите в «Источники» и нажмите «Создать источник». Для простоты предположим, что ваши исторические данные о потоках операций уже экспортированы в файл * .csv (см. Предыдущий шаг). Теперь вам нужно преобразовать ваш источник в набор данных, готовый к машинному обучению, выбрав функции, которые будут влиять на ваши прогнозные модели. Набор данных, который мы используем, уже включает в себя все нужные нам переменные, поэтому для этого примера никаких подготовительных работ не требуется. PreSeries может обрабатывать различные типы полей: текстовые, числовые, категориальные,… Взгляните на набор данных и убедитесь!

На этом этапе вы, вероятно, захотите потратить некоторое время, чтобы изучить свой набор данных: оценить отсутствующие значения, любые ошибки или проанализировать распределение каждого из полей. Если вы хотите создать новую переменную из текущих переменных (например, соотношение, метку или другие) или импортировать объекты из другого набора данных, это также подходящий момент. Все можно сделать на платформе одним щелчком мыши, кодирование не требуется.

Всегда помните, что перед созданием прогнозной модели вы хотите разделить набор данных на набор данных для обучения и тестирования. Модель будет «обучена» на обучающем наборе данных и будет протестирована на «тестовом», чтобы оценить точность. PreSeries предлагает разделение "Обучение | Тестирование" в один клик, поэтому вам не нужно беспокоиться о том, чтобы делать это вручную.

Теперь мы готовы обучать модель. На платформе PreSeries вы можете создать множество прогнозных моделей. Поскольку наша проблема связана с классификацией (собеседование? Да или Нет), нам нужно выбрать модель классификации, здесь дерево решений. Не уверены, какую модель выбрать? функции OptiML автоматически генерируют широкий спектр различных моделей прогнозирования (ансамбли, логистическая регрессия, глубокие сети и т. д.) и сравнивают их, чтобы определить, какая из них работает лучше всего, и все это одним щелчком мыши.

Теперь давайте убедимся, что мы выбрали соответствующее поле цели, то есть то, что вы хотите предсказать. В данном случае поле «приглашено на собеседование». Затем просто нажмите «Модель в один клик», чтобы сгенерировать дерево решений, не задумываясь о параметрах конфигурации.

И вуаля! Ниже вы можете увидеть модель дерева решений, которую мы только что создали с помощью набора данных нашего исторического приложения для обработки сделок. Слева - изображение модели с иллюстрацией вероятностей перехода по узлам. Справа - краткое изложение модели, чтобы вы могли понять, какие переменные лучше подходят для прогнозирования нашей объективной переменной (также как если бы мы пригласили их на собеседование).

Хорошо, теперь, когда у нас есть модель для предсказания ... она хороша? Нам нужно провести оценку, используя наш набор данных тестирования, чтобы увидеть, насколько хороши прогнозы на самом деле.

Как вы можете видеть в приведенной выше матрице путаницы, существует множество метрик, на которые вы можете посмотреть, чтобы решить, достаточно ли хороша ваша модель для запуска ее в производство. На какой метрике стоит ориентироваться, чтобы оценить качество модели? Что ж, это будет зависеть от того, что для вас дороже. В нашем примере «концепция» стоимости связана с ресурсами, необходимыми для проведения интервью: время, деньги и т. Д.

Мы можем столкнуться с двумя типами ошибок: первым может быть пропущенное собеседование со стартапом, которое мы никогда не должны были проиграть (ошибка типа I, отклонить нулевую гипотезу, если она верна, также известная как ложноотрицательная), или наличие интервью со стартапом, которое действительно не стоит нашего времени (ошибка типа II, примите нулевую гипотезу, когда она ложна, также известная как ложноположительный результат).

Если мы хотим минимизировать количество ложноотрицательных результатов, нам следует сосредоточиться на метрике Отзыв (чем больше, тем лучше). В противном случае, если ваша главная задача - уменьшить количество ложных срабатываний, нам следует сосредоточиться на метрике Точность (чем больше, тем лучше).

Если вы хотите сосредоточиться на общей производительности модели, на лучшем компромиссе между обоими типами ошибок, вам следует сосредоточиться только на показателях F-мера или Phi Coefficient. F-мера представляет собой среднее значение (сбалансированное гармоническое среднее) отзыва и точности. И коэффициент Фи, который также явно принимает во внимание истинные негативы, придавая большое значение тому, чтобы не планировать интервью со стартапами, которых мы не должны.

Если посмотреть на Precision, то мы должны провести 17 из каждых 20 интервью, предсказанных моделью. И если мы посмотрим на отзыв, мы увидим, что мы теряем 3 возможности собеседования на каждые 10 собеседований.

Основываясь на этих цифрах, мы могли бы снова и снова входить в спираль оптимизации, тренируя модель: с различными комбинациями функций, настройкой различных параметров нашей модели, добавлением дополнительных функций и т. Д. Но это выходит за рамки этого поста. .

Шаг 3. Сделайте прогнозы относительно входящего потока сделок.

Теперь мы знаем, что можем доверять нашей модели, поэтому давайте применим ее на практике. PreSeries может работать в вашей организации несколькими способами. (Свяжитесь с здесь, чтобы узнать больше!).

Модели PreSeries легко экспортируются в таблицы Google, Microsoft Excel или автономно. Вот как это работает в Google Spreadsheet. Во-первых, откройте свою электронную таблицу, в которой находятся данные о потоке операций, и загрузите надстройку PreSeries. Обратите внимание, что, конечно же, должно быть поле с названием «Приглашено на собеседование?», Аналогичное тому, которое существует в вашем наборе исторических данных.

Вы входите в систему, используя свои учетные данные PreSeries API, и теперь вы можете получить доступ к своей библиотеке моделей. Найдите подходящую модель и нажмите «Прогнозировать».

Модель автоматически добавляет прогнозы в столбец, оставленный пустым, рекомендуя вам или не проводить собеседование с каждой компанией, наряду с достоверностью прогноза. Теперь вы можете отфильтровать эти компании и начать планировать встречи. Готовы сэкономить время и освободить аналитиков от утомительной работы? Свяжитесь здесь!

Вы сделали это, вы все это прочитали. Поздравляю! Теперь вы можете подумать: подходит ли он мне? Что ж, если вы бизнес-ангел, которому нужно позаботиться о большом объеме сделок, венчурная компания на ранней стадии или развивающаяся венчурная компания, у нас есть подходящее решение для вас. Вы можете сэкономить на управленческих сборах, используя больше данных и прогнозное моделирование, и при этом убедитесь, что ни одна удачная инвестиционная возможность не будет упущена. Это не очень дорого и, как видите, работает очень конкретно, вдали от ажиотажа вокруг машинного обучения.

Мы будем разрабатывать больше тематических исследований, подобных этому, о том, как использовать данные PreSeries для обучения моделей рекомендаций для поиска инвесторов, конкурентов или покупателей для компаний вашего портфеля. Возможности безграничны!

Мы предлагаем скидки венчурным капиталистам, заинтересованным в партнерстве с нами. Свяжитесь с нами здесь.

Как оценивать стартапы с помощью машинного обучения: часть III - GASP для прогнозного моделирования

Любители данных из сообщества венчурных капиталистов наконец-то получили свой информационный бюллетень. Подпишитесь здесь!

Как оценивать стартапы с помощью машинного обучения

Структура GASP для стандартизации сбора данных

Шаг 1 - от таблиц GASP к наборам данных

Шаг 2 - От набора данных к прогнозной модели

Шаг 3. Сделайте прогнозы относительно входящего потока сделок.

Эта история опубликована в The Startup, крупнейшем предпринимательском издании Medium, за которым следят +384 399 человек.

Подпишитесь, чтобы получать наши главные новости здесь.

Как оценивать стартапы с помощью машинного обучения: часть III - GASP для прогнозного моделирования

Любители данных из сообщества венчурных капиталистов наконец-то получили свой информационный бюллетень. Подпишитесь здесь!

Как оценивать стартапы с помощью машинного обучения

Структура GASP для стандартизации сбора данных

Шаг 1 - от таблиц GASP к наборам данных

Шаг 2 - От набора данных к прогнозной модели

Шаг 3. Сделайте прогнозы относительно входящего потока сделок.

Эта история опубликована в The Startup, крупнейшем предпринимательском издании Medium, за которым следят +384 399 человек.

Подпишитесь, чтобы получать наши главные новости здесь.

Вопросы по теме