Каждый день создаются тысячи стартапов, и проанализировать их все невозможно. Motherbrain оспаривает это предположение. Это платформа, которая использует данные и машинное обучение для прогнозирования лучших стартапов для инвестиций среди 50 миллионов компаний по всему миру. На нашей последней встрече Heroes of Data к нам присоединились Dhiana Deva и Ylva Lundegård, которые показали нам, как EQT разработала Motherbrain для поиска иголок в стоге сена.

Heroes of Data — это инициатива сообщества данных для сообщества данных (подать заявку здесь, чтобы присоединиться). Мы делимся историями повседневных практиков данных и демонстрируем возможности и проблемы, которые возникают ежедневно. Подпишитесь на новостную рассылку Heroes of Data на Substack и следите за Heroes of Data на Linkedin.

О Дхиане и Илве

Дхиана Дева, старший инженер машинного обучения

Диана родом из Бразилии, но в 2011 году переехала в Швейцарию, чтобы работать с обнаружением и анализом электронов в ЦЕРН с использованием искусственных нейронных сетей. Позже она вернулась в Бразилию, чтобы продолжить разработку программного обеспечения и консультирование в течение ряда лет. В 2016 году она вернулась в Европу, на этот раз переехав в Швецию, чтобы присоединиться к Spotify в качестве разработчика программного обеспечения, а затем перешла на роль инженера по машинному обучению. В апреле 2020 года Дхиана присоединилась к EQT, где сейчас работает старшим инженером по машинному обучению в команде Motherbrain.

Илва Лундегард, руководитель отдела обработки данных

Родом из Вермланда, Ylva работает инженером по обработке данных около трех лет, начав в киберспортивной компании G-loot. По состоянию на январь 2022 года Илва работает руководителем отдела обработки данных в команде Motherbrain.

Спасибо, что читаете Heroes of Data! Подпишитесь бесплатно, чтобы получать новые сообщения и поддерживать нашу работу.

Что такое Материнский мозг?

Motherbrain — это запатентованная инвестиционная платформа на основе искусственного интеллекта, которая внедряет интеллектуальные решения в процесс заключения сделок EQT. Он использует данные и машинное обучение для поиска стартапов, которые являются потенциальными инвестиционными возможностями для EQT. Специалисты по инвестициям ежедневно взаимодействуют с платформой, которая анализирует около 50 миллионов компаний по всему миру; в основном найти иголки в стоге сена.

Motherbrain работает как CRM-система

Motherbrain сканирует более 50 источников данных и использует машинное обучение для просмотра метрик и поиска закономерностей, которые могут указывать на хорошие инвестиционные возможности. Он также работает как CRM для своих пользователей, которые используют платформу для регистрации и отслеживания своих оценок. В настоящее время платформа содержит более 40 000 таких оценок для EQT Ventures, Growth и Private Equity, которые также предоставляют ценную информацию для обучения моделям машинного обучения.

Команда Motherbrain и инвестиции

У Motherbrain впечатляющий послужной список 15 прибыльных инвестиций для EQT, три из которых стали единорогами (частный стартап стоимостью более 1 миллиарда долларов), а один был приобретен другой компанией. Эти инвестиции показаны на изображении ниже.

Магия в маховике

Процесс Motherbrain сильно зависит от машинного обучения. Он начинается с приема больших внешних и внутренних наборов данных, которые затем передаются в алгоритмы машинного обучения. Затем данные интегрируются с ежедневными рабочими процессами специалистов по инвестициям в EQT, которые получают прогнозы и реагируют на них. В свою очередь, они создают оценки на платформе (как упоминалось ранее, она служит CRM-системой для своих пользователей), которые способствуют дальнейшему совершенствованию моделей Motherbrain. Таким образом, приводится в движение маховик, который ежедневно совершенствуется.

Архитектура Motherbrain поддерживает масштабируемость и надежность

Давайте посмотрим, как команда Motherbrain построила платформу данных, используя некоторые из этих технологий. Платформа использует миллионы точек данных в качестве входных данных и производит миллионы ежедневных прогнозов, которые также могут увеличиваться в будущем. Таким образом, очень важно иметь масштабируемую архитектуру, достаточно надежную, чтобы выдерживать большие объемы зашумленных данных.

Внешние источники данных

Внешние данные принимаются через пакетные конвейеры, которые очищают, нормализуют и сохраняют данные единым образом. Все конвейеры данных написаны на Apache Beam и работают на Dataflow.

Журналы данных

Чтобы архитектура соответствовала всем типам форматов данных, данные сводятся к небольшим фрагментам информации на уровне атрибутов вместе с метаданными. Затем он сохраняется в BigTable, а сообщение Kafka запускается, чтобы уведомить о наличии новых или обновленных данных.

Эта абстракция позволяет сохранять слабосвязанные данные и легко объединять объекты данных в один нижестоящий объект. Это также обеспечивает гибкость при изменении заданий приема или структур сущностей ниже по течению.

Материализаторы

Далее идет то, что команда Motherbrain называет материализаторами, потоковыми конвейерами, отвечающими за повторное объединение сущностей после прослушивания сообщений Kafka. Здесь материализаторам необходимо решить две вещи; (1) что должно войти в сущность и (2) какова наиболее вероятная правильная информация. Может быть противоречивая информация из разных источников, т.е. один источник данных говорит, что компания называется «Vandelay Industries», а другой говорит «Vandelay Ind.». Именно здесь Motherbrain нужно принять решение о том, какой из них выбрать.

Потребители

После создания объектов они отправляются в Kafka для использования другими приложениями. Основные потребители используют данные в веб-интерфейсе Motherbrain, что делает данные легко доступными с помощью Elasticsearch. Другие потребители — это суперпользователи, в основном команда Motherbrain Labs, которые получают доступ к данным из BigQuery и обычно проводят дополнительный анализ.

Ввод данных пользователем

Помимо внешних данных, пользователи EQT вводят в систему внутренние данные. Это проходит через тот же поток, что и внешние данные, но, как правило, Motherbrain отдает им более высокий приоритет при объединении сущностей и обучении моделей.

Архитектура Motherbrain, управляемая событиями, поддерживает прогнозы машинного обучения тремя способами.

  1. Motherbrain поддерживает онлайн-прогнозы, когда требуется разрешение в реальном времени,благодаря тому, что материализаторы (конвейеры потоковой передачи) и онлайн-пользователи (люди, взаимодействующие с веб-интерфейсом) могут запустить службу предсказания.
  2. Он также поддерживает потоковые прогнозы,где разрешение требуется только при изменении переменной, влияющей на прогноз компании.Это делается путем прослушивания Сообщения Kafka, запускающие службу, как только происходит существенное изменение.
  3. Наконец, Motherbrain также поддерживает пакетные прогнозы. Часто нет необходимости делать прогнозы в режиме реального времени. Может быть достаточно доставлять свежую обновленную информацию потребителям один раз в день, например. предоставление специалистам по инвестициям актуальных компаний, находящихся в топ-рейтинге согласно алгоритмам Motherbrain, когда они приходят на работу утром.

Прощальные мысли

  • Модели машинного обучения не всегда точны, поэтому Motherbrain разработан так, чтобы учиться на неверных данных и использовать их для ежедневного улучшения своих прогнозов.
  • Архитектура Motherbrain должна быть динамичной, чтобы реагировать на постоянно меняющийся мир. Решение EQT заключалось в создании архитектуры, управляемой событиями, которая может разбивать данные на более мелкие фрагменты, когда это необходимо, добавлять к ним интеллектуальные функции и объединять их в формат, который имеет смысл для профессионалов в области инвестиций.
  • Также недостаточно просто полагаться на необработанные данные. Копаться в данных 50 миллионов компаний означает большие объемы данных и много шума. Части машинного обучения необходимы, чтобы избавиться от шума неверных данных и заполнить пробелы везде, где это возможно. Пользователи и модели машинного обучения получат выгоду от вклада друг друга в расширение возможностей маховика, который со временем будет постоянно улучшать и развивать Motherbrain.

В Heroes of Data мы благодарны Илве и Дхиане за то, что они поделились своим опытом и знаниями с более широким сообществом данных, чтобы другие могли учиться у них. Нам не терпится увидеть, чего они достигнут с EQT и Motherbrain в будущем.

Если эта тема показалась вам интересной, команда Motherbrain недавно написала небольшой пост на Medium об использовании Deep Learning для поиска следующего единорога — обязательно ознакомьтесь с ним здесь!

Эта статья была обобщена Эмилем Брингом на основе презентации Илвы и Дхианы из EQT на встрече Heroes of Data в октябре 2022 г.