Как программный обмен данными в реальном времени изменит все

Фраза данные — это новая нефть была придумана Клайвом Хамби в 2006 году и с тех пор широко повторяется. Однако аналогия имеет смысл только в нескольких аспектах (например, ценность обоих обычно увеличивается с уточнением), а более широкое экономическое влияние данных было приглушено за исключением нескольких избранных технологических и финансовых компаний. Но фактические различия между нефтью и данными фундаментальны.

В частности, нефть является товаром. Его качество стандартизировано и измеримо, что делает масло из разных источников заменителем (с экономической точки зрения это «однородный товар»). Он вездесущ и имеет хорошо установленную цену. Не в последнюю очередь, если у вас есть баррель нефти, вы не можете просто сделать копию, чтобы произвести другую — нефть — это ограниченный ресурс, который нужно добывать из-под земли.

Данные, с другой стороны, являются разнородным товаром. Оно приходит в неограниченном разнообразии, и ценность каждого случая не может быть измерена объективно. Когда две стороны обмениваются товаром, продавец должен установить цену, а покупатель должен подтвердить свою готовность платить. Это осложняется двумя атрибутами данных:

Предельная стоимость продажи тех же данных другому покупателю равна нулю. Стоимость производства данных очень изменчива (секвенирование генома обходится дороже, чем измерение температуры), но как только они существуют, эти затраты исчезают. Процесс продажи другому покупателю — это простое копирование, которое с практической точки зрения равно нулю.

Трудно установить ценность данных, не «потребляя» их. База данных потенциальных клиентов ценна только в том случае, если она приводит к реальным продажам. Что еще хуже, ценность одного и того же набора данных сильно зависит от покупателя (или его предполагаемого использования). В этом отношении данные на самом деле ближе к «товарам впечатлений», таким как книги или отпуск.

В этом посте я утверждаю, что данные — один из самых недоиспользуемых и, как следствие, недооцененных товаров. Я описываю программный обмен данными в режиме реального времени, который лежит в основе новой компании, которую я консультирую, и может оказать глубокое влияние на экономику данных.

«Данные — один из самых недоиспользуемых и, как следствие, недооцененных товаров».

Почему мы должны заботиться об экономике данных?

Различие между данными первой и третьей стороны

Никто из моих знакомых не возражает против важности данных. Но даже несмотря на то, что нарратив «данные — это актив» стал довольно распространенным, данные, вероятно, являются одним из наименее используемых и, как следствие, недооцененных товаров.

Когда большинство компаний думают о данных, они думают о данных, которыми владеют. Эти данные первой стороны (1PD) обычно собираются с веб-сайтов, систем CRM/ERP, переписки с клиентами и т. д. Некоторые наборы данных первой стороны более ценны, чем другие: кладезь поиска и истории кликов Google является частью их корпуса 1PD.

Что должно быть очевидным, так это то, что количество существующих сторонних данных (3PD), то есть данных, которыми вы напрямую не владеете, на несколько порядков больше, чем ваши 1PD. Я приведу аргумент, что большинство людей не осознают ценность 3PD для своего бизнеса. Давайте воспользуемся примером, чтобы проиллюстрировать этот момент.

Обнаружение спама в электронной почте (и почему один только ваш 1PD может быть не таким ценным, как вы думаете)

Как вы думаете, какой сигнал является наиболее предсказуемым при обнаружении спама в электронной почте? Наиболее распространенные ответы включают: опечатки, грамматика или упоминание определенных ключевых слов, таких как v1agra. Чуть лучше ответ «если отправитель является частью ваших контактов или нет» — не потому, что это правда (в ваших контактах больше действительных отправителей не спама, чем в них), а потому, что он рассматривает источник данных за пределами самого электронного письма: ваши контакты.

Хотя бы для целей этого анекдота, предположим, что наиболее важным сигналом в обнаружении спама по электронной почте является возраст домена отправителя. После утверждения это кажется интуитивно понятным: спамеры часто регистрируют новые домены, которые в короткие сроки блокируются поставщиками электронной почты.

Почему большинство людей не думают об этом ответе? Потому что возраст домена отправителя не является частью вашего «первого набора данных», который содержит только такие вещи, как электронные письма отправителя и получателя, тему и тело письма. Но каждый, кто что-то знает о доменных именах, скажет вам, что эта информация не только легкодоступна, но и бесплатна. Возьмите домен, зайдите к регистратору доменов, и вы сможете узнать, когда он был зарегистрирован (например, gmail.com был зарегистрирован 13 августа 1995 года).

Как оказалось, данные, которыми вы владеете (1PD), вероятно, будут гораздо более ценными для вас, если они будут дополнены данными, которыми владеет кто-то другой (3PD).

От спама по электронной почте до количественной торговли (и не только?)

Экстраполируя идею о том, что вы можете лучше обнаруживать спам в электронной почте, просто дополняя свой набор данных возрастом домена отправителя, вы можете представить, что существует бесконечное количество способов применения того же принципа. Ниже приведен простой пример данных, которые вы можете найти по адресу (по крайней мере, в США).

Конечно, это не новая идея. Хедж-фонды десятилетиями использовали альтернативные данные. РенТех была одной из первых компаний, использующих альтернативные данные, такие как спутниковые снимки, веб-скрапинг и другие творческие наборы данных, чтобы дать им преимущество в торговле. UBS использовала спутниковые снимки для наблюдения за парковками крупных ритейлеров и соотносила автомобильный трафик с квартальной выручкой, что позволяло более точно прогнозировать прибыль до того, как они были опубликованы.

Вы, наверное, догадываетесь, куда это идет. Только в США существует более 300 тысяч поставщиков данных и, вероятно, миллиарды наборов данных. Многие из них могут дать вам конкурентное преимущество во всем, что вы пытаетесь предсказать или проанализировать. Единственным ограничением является ваше творчество.

(Субъективная) ценность использования внешних данных

В то время как ценность внешних данных для фирм, занимающихся количественным трейдингом, очевидна и значительна, руководители других отраслей не сразу пришли к тому же выводу. Помогает мысленный эксперимент: рассмотрите некоторые из наиболее важных задач прогнозирования для вашего бизнеса. Для Amazon это может быть продукт, который клиент, скорее всего, купит следующим. Для нефтедобывающей компании это может быть место, где можно открыть следующий нефтяной пласт. Для продуктовой сети это может быть спрос на определенные продукты в любой момент времени.

Затем представьте, что у вас есть волшебный циферблат, который вы можете повернуть, чтобы повысить производительность этой прогнозирующей задачи и итоговую ценность для вашего бизнеса. Продуктовые сети теряют примерно 10% продуктов из-за порчи. Если бы они только могли лучше прогнозировать спрос, они могли бы улучшить свою цепочку поставок и уменьшить порчу. При приблизительно 20% валовой маржи каждый процентный пункт снижения брака улучшит их валовую маржу на 0,8 п.п. Таким образом, для такой компании, как Albertsons, каждый процент улучшения в прогнозировании спроса может стоить примерно 640 миллионов долларов в год. В этом могут помочь альтернативные данные.

Те же самые данные, которые сэкономили сотни миллионов долларов продуктовой сети, могут оказаться еще более ценными для застройщика коммерческой недвижимости. Однако рынки данных не смогли извлечь эту ценность (через ценовую дискриминацию), потому что они далеки от реального бизнес-приложения. Они должны установить общую цену на свой инвентарь, независимо от его возможного использования.

Тем не менее, внешним данным удалось стать оценочным рынком в 5 миллиардов долларов, который растет на 50% в годовом исчислении, а торговые площадки, которые торгуют этими данными, представляют собой еще один рынок в 1 миллиард долларов. Это представляет собой лишь небольшую часть потенциального размера рынка по крайней мере по двум причинам: (1) Хотя каждая отдельная компания должна иметь возможность извлечь выгоду из 3PD, только наиболее аналитически зрелые компании знают, как использовать 3PD в своих интересах. (2) Те, кто осмеливается попробовать, замедляются из-за устаревшего процесса поиска и покупки 3PD. Давайте кратко рассмотрим процесс покупки рекламы, чтобы проиллюстрировать этот момент.

Чему программная реклама может научить нас тому, как улучшить экономику данных

Эволюция процесса покупки рекламы

Не так давно, в 2014 году, программатик-реклама составляла менее половины расходов на цифровую рекламу. Как люди покупали рекламу? Они сказали агентству, какую аудиторию они хотели охватить. Затем агентство изучило издателей, с которыми они работали, и их инвентарь (страницы журналов, рекламные щиты, рекламные места на телевидении и т. д.) и составило план того, где проводить кампанию, чтобы соответствовать этим требованиям. После недолгих переговоров компания и агентство в итоге подписали контракт. Рекламный креатив будет разработан, рассмотрен и утвержден. Заказы на размещение будут отправлены, и в конечном итоге рекламная кампания будет запущена. Через несколько месяцев компания получит отчет о том, как, по мнению агентства, все прошло (на основе небольшого выборочного набора данных).

Затем появился Google, который (среди прочих) популяризировал то, что известно как программная покупка рекламы. Google создал собственную биржу объявлений (AdX), которая связывала ресурсы нескольких издателей с разными рекламными сетями. Когда пользователи выполняли поиск или посещали веб-сайты, он запускал аукцион в режиме реального времени (да, в течение времени, необходимого для загрузки веб-страницы), на котором все рекламодатели сталкивались друг с другом и выбирали того, кто предложил самую высокую цену (на самом деле, второго по величине) для показа своей рекламы.

Таким образом, покупка рекламы превратилась из многомесячного испытания с участием большого количества людей и очень малой прозрачности в транзакцию в реальном времени, которая одновременно устанавливает цены (посредством аукциона) И и обеспечивает мгновенную оценку показов (а иногда даже конверсий). Этот уровень скорости, ликвидности и прозрачности привел к взрыву на рынке онлайн-рекламы, и покупка программной рекламы теперь составляет около 90% бюджетов цифровой рекламы.

Устаревший процесс покупки данных

Как оказалось, покупка данных сегодня еще более болезненна, чем покупка рекламы 20 лет назад.

Обнаружение.Во-первых, вам нужно осознать тот факт, что 3PD может быть чрезвычайно ценным для вас. Помните пример со спамом по электронной почте? Затем вам понадобится творческий подход, чтобы продумать все возможные 3PD, которые вы могли бы использовать для расширения вашего 1PD. Рассматривали бы вы спутниковые снимки парковок для прогнозирования доходов ритейлера? Затем вам нужно обратиться ко всем поставщикам данных и найти то, что, по вашему мнению, вам нужно. Вы обнаружите, что большинство «рынков данных» — это, по сути, просто свободный текстовый поиск по описаниям. Затем вам нужно будет посмотреть на схему данных, чтобы увидеть, содержит ли она то, что вы ищете, с необходимой вам степенью детализации (например, иногда вам нужен поминутный трафик, а не только ежечасно) и с правильным охватом (например, для правильного диапазона дат или географического региона).

Закупки. Как только вы найдете то, что, по вашему мнению, вам нужно, вы должны выяснить, как получить эти данные. Вы будете удивлены, что это не всегда простое дело «нажми и купи». Вам нужно поговорить с поставщиком данных, узнать о лицензиях на данные (можете ли вы использовать эти данные по прямому назначению?), обсудить условия и подписать контракт. Вы повторяете этот процесс несколько раз для разных 3PD от разных поставщиков, у которых у всех разные контракты, условия и лицензии. Вы ждете, чтобы получить данные на дискетах в вашем почтовом ящике (шучу).

Интеграция. Наконец-то у вас есть нужные данные. Вы ждете пару недель, пока ваши команды инженеров данных присоединятся к нему с вашим 1PD, просто вы узнаете, что на самом деле это не так полезно, как вы надеялись. Время и деньги, которые вы потратили, потрачены впустую, и вы никогда не попытаетесь снова. Или, что еще более мучительно, вы обнаруживаете, что 3PD действительно дает вам значительное улучшение, и вы продолжаете создавать свои прогностические модели только для того, чтобы узнать, что вам нужны свежие данные ежечасно и что один из источников данных, которые вы использовали, обновляется только еженедельно. Если вы когда-нибудь попробуете еще раз, то теперь вы знаете, что, помимо проверки детализации на основе схемы, вы должны учитывать частоту обновления.

Этот процесс может занять от нескольких месяцев до более чем года. В попытке построить более быструю лошадь некоторые консалтинговые фирмы предлагают решение проблемы — нанять целые команды по поиску данных и наладить отношения с агрегаторами данных.

Экономике данных нужен программный обмен данными в режиме реального времени.

Причина, по которой я привел в пример алгоритмическую закупку рекламы, заключается в моем твердом убеждении, что экономика данных может развиваться таким же образом, что приведет к сравнительно сильному экономическому воздействию.

Обнаружение и закупка. Рассмотрим обмен данными, который объединит всех поставщиков данных («инвентарь») и упорядочит лицензии, чтобы упростить транзакции программным путем. Потребители данных будут предоставлять любой 1PD и выражать интересующую их задачу (например, прогнозировать спрос), а также ценность, которую они придают каждой единице улучшения (помните, что 1 п.п. улучшения в прогнозировании спроса стоит 640 миллионов долларов для Albertsons?). Обмен данными будет автоматически определять, какой 3PD обеспечит измеримое улучшение этой задачи, проводить аукцион в реальном времени на основе бюджета потребителя данных и оптимально выбирать подмножество 3PD, отвечающее его требованиям. Эта близость к фактической задаче (и связанной с ней ценности) решит проблемы обнаружения и извлечения ценности из существующих рынков данных, которые должны рассматривать данные как товар, а не как полезный опыт.

Непрерывная интеграция и совершенствование. Поскольку наиболее ценные прогностические задачи носят непрерывный характер (например, вам необходимо прогнозировать спрос на регулярной основе, а не только один раз), биржа станет центром повторяющихся транзакций, которые со временем будут приносить больше пользы, поскольку новые поставщики данных и потребители входят в экосистему. Запуск аукциона каждый раз, когда вы выполняете прогнозную задачу (а не только один раз, когда вы решаете, какие данные вы хотите купить), гарантирует, что новые поставщики данных получат немедленное распространение, а потребители данных получат выгоду от самой последней инвентаризации данных и определения цены. Подобно тому, как покупка рекламы эволюционировала из офлайн и вручную, транзакции данных станут программируемыми в реальном времени и, что наиболее важно, измеримыми.

Этот «программный обмен данными в режиме реального времени» обеспечит экономические стимулы для всех участников рынка:

  • И поставщики данных, и потребители выиграют от улучшенной возможности обнаружения. У торговых площадок данных есть проблема с длинным хвостом: существует огромное количество и разнообразие данных, и с помощью существующих методов почти невозможно найти наиболее релевантные данные для любой конкретной задачи/приложения.
  • Стандартизация условий и лицензий, чтобы транзакции могли выполняться программно, повысит скорость и ликвидность экономики данных, устранит трения в процессе покупки и откроет его для более широкой аудитории. В результате общий рынок значительно расширится.
  • Устанавливая цену на аукционе на основе субъективной ценности для каждого потребителя данных, потребители получают более выгодную сделку, если есть несколько поставщиков данных с сопоставимыми данными, и поставщики могут проводить ценовую дискриминацию между потребителями, которые по-разному оценивают одни и те же данные.
  • Объединение запросов от потребителей данных на одной платформе предоставит бесценную информацию поставщикам данных. Например, учитывая все задачи и готовность платить со стороны спроса, обмен данными может точно определить, каких данных не хватает со стороны поставщика, помогая расставить приоритеты при сборе и создании данных. Обратите внимание, поставщики синтетических данных!

Сложные проблемы, которые необходимо решить

В дополнение к решению проблемы обнаружения и ценообразования данных, подобно тому, что Google сделал для рекламы, этот программный обмен данными также должен решать вопросы лицензирования и доставки, мало чем отличающиеся от того, что Spotify сделал для музыки. Но если бы не было ряда сложных проблем, которые нужно было бы решить, это не было бы столь интересным и значимым занятием.

Коммерческий

  • Лицензирование данных появилось относительно недавно. Насколько я могу судить, в лицензировании данных не так много стандартизации. У каждого поставщика данных есть свои особые лицензии, которые несовместимы с другими. Чтобы облегчить обмен, необходимо упростить лицензирование.
  • Рынки данных могут бояться отказа от посредников. Экосистема данных сложна. Для поставщиков данных это будет совершенно новый канал распространения. Они болезненно осознают проблему обнаруживаемости, и этот обмен может открыть рынок для миллионов новых потребителей, которые в противном случае не рассматривали бы альтернативные данные. Торговые площадки и агрегаторы данных, с другой стороны, являются эквивалентом звукозаписывающей компании, которая может заблокировать прямой доступ поставщиков данных к программному обмену данными.
  • Внедрить новую модель ценообразования в «старую» отрасль сложно. Механизмы ликвидности программной биржи значительно расширят как спрос, так и предложение, а механизм ценообразования оптимизирует получение стоимости. В совокупности программный обмен данными был бы выигрышным для поставщиков данных.

Технические

  • Определение семантического типа застряло в прошлом. Чтобы автоматически определить, какие наборы данных можно объединить, сначала необходимо понять семантический тип данных. Например. это просто число, почтовый индекс или валюта? Большая часть определения семантического типа основана на эвристике, но есть и более современные подходы.
  • Обнаружение данных методом грубой силы невозможно. Оказывается, данных много. Наивный подход к выяснению того, какие 3PD наиболее полезны для вашей задачи, состоит в том, чтобы просто «опробовать» все данные, чтобы определить, какие из них представляют наибольшую ценность. К счастью, современные прорывы в таких областях, как теория информации и обобщение данных, позволяют решить эту проблему.
  • Объединять данные сложно. Когда вы знаете семантические типы и у вас есть механизм для определения того, какой 3PD принесет значимую пользу, вам нужно соединить 1PD и 3PD ​​интересными способами. Данные о погоде могут поставляться с долготой и широтой метеостанции, которые не соответствуют аэропорту, для которого вы хотите предсказать задержки рейсов. Или данные о пешеходном трафике могут поступать ежечасно, и вам нужно выяснить, хотите ли вы использовать среднее, максимальное или n-е процентиль для ежедневного сводного значения.
  • Безопасность данных. Поставщики данных не любят разглашать свои данные (потому что их очень легко воспроизвести). Однако существуют методы (такие как федеративное обучение), которые позволяют увеличивать предсказания, сохраняя при этом доступ к данным и конфиденциальность.

Я считаю, что влияние программного обмена данными в режиме реального времени будет огромным, и, к счастью, последние достижения в области ИИ обеспечивают решение проблем, изложенных выше. Я, например, с нетерпением жду будущего, когда данные станут хорошим опытом, а не товаром.

Мнения, выраженные в этом посте, являются моими собственными, а не взглядами моего работодателя.