Ранее в этом году мы представили миру нашу платформу машинного обучения Helio. Мы строили Helio в течение многих лет, поэтому были взволнованы тем, что наконец смогли рассказать об этом публично. С тех пор мы опубликовали широкий спектр различных идей, основанных на Helio, по всем вопросам, от моды до еды и обзоров продуктов. Одна из вещей, которая действительно захватывает в Helio, заключается в том, что мы не ограничены какой-то определенной категорией или определенным взглядом на мир. Невероятное разнообразие миллиардов точек данных, которые входят в Helio, означает, что мы можем смотреть на любой сектор под бесчисленными углами. Это позволяет нам целостным образом оценивать бренды и гарантирует, что мы не упустим то, что делают другие инвесторы.

Когда люди видят идеи, полученные с помощью Helio, они часто спрашивают нас о том, что привело к этим идеям. Другими словами, откуда берутся данные? Наша команда в CircleUp годами работала над созданием сложной сети из сотен источников, которые в совокупности помогают составить Helio. Хотя мы не можем делиться всеми источниками по причинам конфиденциальности, мы подумали, что было бы полезно описать некоторые входные данные, которые поступают в Helio, и обсудить, почему мы считаем их важными.

Общедоступные данные

Важные сигналы о бренде создаются каждый день, а сектор потребительских товаров уникален тем, что многие из этих сигналов создаются публично. Когда покупатель рассматривает продукт, это имеет значение. Когда бренд публикует сообщения в социальных сетях, это важный показатель. Когда компания нанимает нового сотрудника, это знак. Понимание этих сигналов жизненно важно для полноценной оценки бренда. В то же время данные, эквивалентные 250 000 библиотек Конгресса, создаются каждый божий день, поэтому наряду с этими сигналами также создается много шума, который менее значим. Кроме того, доступность и актуальность точек данных может значительно измениться с течением времени. Выполните быстрый поиск в Google своего любимого бренда сегодня, и вы увидите информацию о продуктах этого бренда, распространении, команде, отзывах потребителей, отрасли, конкурентной среде и присутствии в социальных сетях. Повторите тот же поиск в Google через месяц, и результаты, вероятно, будут сильно отличаться. Учет этих изменений в масштабе - невероятно сложная, но важная задача. Поиск важной информации в этом потоке данных может показаться поиском иголки в стоге сена, и во многих отношениях так оно и есть. Вот тут-то и пригодится Хелио.

Helio на регулярной основе использует миллиарды общедоступных данных, собирая информацию о том, как клиенты реагируют на контент, как компания описывает себя, где можно купить продукты компании или где расположены ее магазины, опыт работы. сотрудников компании и многое другое.

Каким бы сложным ни был сбор огромного количества информации, разобраться в этой информации и сохранить ее таким образом, чтобы ее можно было анализировать, может быть еще сложнее. Например, если два разных источника данных по-разному относятся к одному и тому же продукту, как вы систематически распознаете, что эти два продукта одинаковы? Эта проблема, известная как разрешение сущностей, является проблемой, с которой борются многие люди, работающие с разнообразным набором источников данных, и она усугубляется, когда вы работаете с более разрозненными источниками данных. Также существует проблема определения того, как лучше всего преобразовать и сохранить данные таким образом, чтобы это было наиболее полезно для различных алгоритмов. Нормализация данных - важный шаг на пути к практической реализации. Ничего из этого сделать нелегко, и мы потратили годы на то, чтобы довести Helio до такой степени, чтобы он мог выполнять все эти операции быстро и точно.

Данные о партнерстве

Нам повезло иметь плодотворные партнерские отношения со многими различными организациями, занимающимися потребительскими товарами, розничной торговлей, данными и исследовательскими организациями, которые делятся с нами информацией, чтобы мы могли лучше понять отрасль и поделиться с ними своими идеями. Некоторые из наших партнерских отношений позволяют Helio лучше выявлять компании с высоким потенциалом, другие помогают открывать возможности для компаний после того, как Helio их определит, но все наши партнерские отношения создают существенную ценность для нас и предпринимателей, которым мы служим.

Наше партнерство дает нам доступ к данным, которых нет ни у одной другой коммерческой организации, и добавляет мощную аналитическую информацию к прогнозным способностям Helio, которые позволяют нам изучать области, в которых мы иначе были бы не в состоянии. Для развития таких партнерских отношений требуется время, и они возможны, потому что организации, с которыми мы работаем, видят огромную ценность в получении доступа к сети многообещающих брендов CircleUp. Они также признают, что мы обращаемся с их данными с особой осторожностью и никогда не разглашаем личную информацию без явного согласия владельца. По мере того, как мы продолжаем сотрудничать с все большим количеством партнеров, мы сможем добавлять в наши модели все больше и больше данных. Мы считаем, что это будет иметь эффект снежного кома и заставит другие организации признать ценность работы с нами.

Данные практикующего

Хотя в открытом доступе имеется много ценной информации о компаниях, другие данные, важные для наших моделей, получены из наших взаимоотношений с предпринимателями. Частные компании обычно не делятся определенной информацией, например о своих доходах, с миром в целом, но этот тип данных является ключом к пониманию того, как предприятия запускаются и развиваются.

В CircleUp мы помогли сотням предпринимателей привлечь капитал и развить свой бизнес. Работая с этими компаниями, мы собираем конфиденциальную информацию, которую мы используем, чтобы помочь им в привлечении капитала, и мы можем использовать эту информацию - в агрегированном, непубличном виде - для улучшения наших моделей. Мы никогда не используем их личные данные публично, но это дает нам инсайдерский взгляд на бизнес и помогает нашим моделям делать более точные прогнозы для всех потребительских компаний.

Как все это сочетается?

Helio собирает общедоступные, проприетарные и партнерские данные, которые у нас есть, в алгоритмы, которые помогают прогнозировать успех компании по множеству показателей - от бренда до распределения, продукта и команды. Например, данные на веб-сайте компании могут интересным образом пересекаться с данными, которые мы получаем от аналогичных компаний, с которыми мы работали, или информацией об этой компании, доступной через некоторых из наших партнеров. Это позволяет нам объединять идеи из множества различных источников и развивать четкое повествование о бренде, создавая систему информации, более ценную, чем сумма ее частей.

Делая это в большом масштабе, мы уже смогли успешно идентифицировать сотни многообещающих брендов, которые традиционные инвесторы могли бы упустить. В следующих статьях мы обсудим некоторые из этих компаний и то, как Helio помог нам выявить их потенциал на ранней стадии.