Чем больше людей ищут в Интернете, чем больше данных они генерируют, тем больше Google может улучшить производительность своих алгоритмов и персонализировать поиск, делая их движок, в свою очередь, более ценным для каждого пользователя. Довольно потрясающе?

Это называется «эффекты сети передачи данных (NFX)». В сети передачи данных они теоретически возникают, когда каждый узел сети передает полезные данные обратно в центральную базу данных. По мере увеличения агрегированных данных ценность услуги, предоставляемой каждому отдельному узлу, соответственно растет. Подумайте о Waze, где пользователи приложения возвращают данные в реальном времени (например, сигнализация, узкие места трафика и т. Д.), Тем самым повышая полезность приложения для других пользователей.

При этом мы ранее заявляли, что эффекты сети передачи данных - хотя и являются мощным потенциальным источником защиты - обычно имеют тенденцию быть более слабыми, чем многие люди часто хотят верить, и для их реализации может потребоваться время. Действительно, в их прекрасном теоретическом существовании есть несколько недостатков.

Являются ли эффекты сети передачи данных мифом?

Во-первых, ценность инкрементных данных обычно снижается. Сначала ваш алгоритм машинного обучения обучается очень быстро, но вы можете быстро перейти к асимптоте, когда новые данные, добавляемые в модель, не приводят к тому же уровню повышения точности. Во-вторых, «стоимость данных» может значительно возрасти: сбор полезных данных и поддержание инфраструктуры данных может постепенно стать более дорогостоящим и трудоемким (т. Е. Растущие вычислительные затраты, обширная маркировка точек данных, увеличение затрат на безопасность и т. Д.) . В-третьих, часто взаимосвязь между использованием продукта и объемом собранных полезных новых данных может быть асимметричной: на TripAdvisor не все являются участниками; большинство пользователей пассивно используют платформу. И, наконец, эффекты сети передачи данных - это только один из видов защиты, которую можно создать с помощью данных: их часто путают с преимуществами данных, которые могут исходить от простого масштаба; «Встраивание» данных также может гарантировать сохранность продукта за счет высоких затрат на переключение.

В конце концов, могут ли данные действительно создать прочный ров? Являются ли данные nfx устойчивым источником конкурентного преимущества для вашей компании?

Похоже, что это могло произойти при очень конкретных предварительных условиях, определенных ниже в рамках 7-балльной системы.

7-балльный фреймворк Data-nfx

  • 1. Ценность продукта / услуги должна увеличиваться по мере поступления дополнительных данных.

В продукт должны быть встроены короткие и положительные циклы обратной связи, чтобы гарантировать быстрое включение созданных новых данных обратно в модель. А стоимость продукта и / или услуг автоматически увеличивается по мере добавления новых данных.

  • 2. Чем больше используется продукт / услуга, тем больше полезных данных.

В идеале производство данных является внутренним, с генерацией собственных данных (вместо ввода сторонних данных в модель); и новые данные высокого качества.

  • 3. Ценность, создаваемая данными, лежит в основе ценностного предложения модели и того, каким образом продукт / услуга приносит пользу пользователю.

Данные должны играть ключевую роль в том, как продукт приносит пользу пользователям. Например, механизмы рекомендаций, использующие данные для продвижения персонализированного контента, обычно являются только функцией продукта или услуги, а не его ядром: поток данных Netflix или Spotify обычно слабее, чем рекламируется. В конце концов, основная ценность таких платформ заключается в самом контенте.

  • 4. Асимптотическое значение дополнительных данных отсутствует.

Обычно это происходит, если предоставляемая услуга работает в режиме реального времени или, например, динамически: высокодинамичные наборы данных влекут за собой постоянные кривые обучения. Было бы неплохо иметь асимптоту, но если это так, то порог, при котором эта асимптота возникает, должен быть сверхвысоким.

  • 5. Нет асимметрии в передаче данных участниками сети.

Все узлы должны участвовать в сети передачи данных и производить полезные данные. Например, модель машинного обучения, лежащая в основе Gboard, питается анонимными типизированными данными, поступающими со всех устройств Android.

  • 6. Процесс производства / сбора данных масштабируемый и экономичный.

В идеале сбор и маркировка данных можно автоматизировать, чтобы снизить стоимость производства и внедрения новых данных.

  • 7. «Минимально жизнеспособный корпус» (т. Е. Минимальный объем данных, необходимый для начала обучения модели) должен быть высоким.

Порог объема данных, необходимых для того, чтобы продукт начал приносить пользу, должен быть высоким, чтобы обеспечить масштабную защиту от конкурентов, выходящих на рынок. Например, одной из ключевых сильных сторон исследовательской платформы Owkin является их собственная сеть больниц и клиник, предоставляющая им большие реальные наборы данных о состоянии здоровья для поддержки их моделей обнаружения заболеваний. Это очень связано с печально известной проблемой на рынке курицы и яйца.

Заключительные соображения

В этих 7 условиях эффекты сети передачи данных потенциально могут быть интересным источником защиты. В Samaipata мы инвестируем в цифровые платформы, демонстрирующие растущую доходность, и считаем, что data nfx становится возможностью для гораздо более широкой группы компаний, даже на ранних стадиях. Это стало возможным благодаря недавним достижениям в таких технологиях, как i) инструменты для работы с большими данными, позволяющие использовать более дешевую и быструю инфраструктуру для обработки больших объемов данных, ii) достижения в области машинного обучения / глубокого обучения и растущее количество готовых инструментов и алгоритмов. для автоматического анализа и извлечения уроков из этого большого количества данных, и, наконец, iii) появление облачных вычислений, позволяющих обрабатывать их. Следующее поколение инженеров, все больше переходящих от проектов типа НИОКР к бизнес-кейсам, также вносит свой вклад в импульс рынка, поскольку технические таланты подпитывают сцену стартапов.

Итак, если вы основатель европейской платформы и ищете начальное финансирование, а эффекты сети передачи данных соответствуют вашей модели, отправьте нам свою колоду здесь.

Вы также можете подписаться на наш Ежемесячный комплект учредителей здесь!

Продолжение следует 👉 Как измерить влияние сети передачи данных и производительность моделей машинного обучения.

Samaipata - фонд основателей на ранней стадии, инвестирующий в цифровые платформы, демонстрирующий растущую прибыль в масштабе всей Европы.