Торговые площадки данных и федеративное обучение

Торговые площадки данных сегодня представляют собой огромную индустрию. Тысячи компаний покупают и продают ценные данные о пользователях, событиях, машинах, картах и ​​других доменах. Такие платформы, как Dawex, Lotame, Bluekai и другие, упрощают интеграцию сторонних данных в конвейеры предприятия. Этот рынок стоимостью более 26 миллиардов долларов со временем будет только расти.

Федеративное обучение — это недавняя концепция, которая обещает трансформировать эту отрасль и расширить ее возможности. Это в основном позволяет учиться на данных, не получая доступа к данным. Это позволило бы рынкам данных быть полезными для гораздо большего числа компаний — большинство компаний считают данные своим самым ценным активом и не будут склонны продавать их для получения вторичного дохода. Однако в случае, когда они могли бы получить вторичный поток данных — обмен с другими компаниями без раскрытия подробностей своих пользователей или действий — это было бы гораздо более привлекательным предложением.

Представьте себе альянс банков, которые могут совместно обучать модели машинного обучения прогнозированию мошенничества. Точность такой модели, обученной на всех клиентах всех банков, будет, естественно, выше, чем у модели, имеющей доступ только к данным одного банка. До недавнего времени это было невозможно из-за правил, запрещающих объединение данных, что приводит к потере конфиденциальности для отдельных потребителей. Дополнительная ценность здесь заключается в том, что отдельные потребители могут сохранить свою конфиденциальность, в то время как компании могут одновременно извлекать интеллектуальные модели.

Альянсы данных

Таким образом, рынок данных может быть расширен за счет продажи текущих подписок на данные. К сожалению, это может привести к росту промышленных консорциумов, в которых нынешние крупные игроки в каждой области могут еще больше укрепить свое конкурентное преимущество. И стоимость входа для новых участников может стать выше либо с финансовой точки зрения для оплаты подписки на данные, либо с точки зрения данных, когда более крупные игроки не будут заинтересованы в данных более мелких игроков.

Полностью извлечь ценность данных вашей компании не так просто. Основное использование, конечно, хорошо известно, но есть много межотраслевых синергетических вариантов использования, которые никогда не может использовать одна организация. Сельскохозяйственная компания может собирать географические данные для сельскохозяйственных целей, но не будет заинтересована или даже не будет знать, насколько полезными могут быть эти данные для горнодобывающих компаний. Электроэнергетическая компания не сможет использовать свои данные об использовании электроэнергии в определенном месте, а также застройщики. Все эти инновационные приложения теперь возможны и могут быть реализованы при тщательной разработке механизмов стимулирования и прочных отраслевых партнерских отношений.

Недавние исследования на рынках ИИ

Рынки совместного машинного обучения с надежными платежами с репликацией данных (https://arxiv.org/pdf/1911.09052.pdf)

Авторы описывают торговую площадку, которая продает данные в соответствии с требованиями федерации конфиденциальности. Они используют значения Шепли для оценки данных, что, по-видимому, является предпочтительным выбором и в других исследованиях. Они также используют значения Шепли для определения выплат поставщикам данных. Они затрагивают проблему обнаружения дубликатов данных, отправленных вредоносными поставщиками данных, и математически показывают, как этой проблемы можно избежать, уменьшив вознаграждение на основе сходства Шепли и других ограничений. Чтобы убедиться, что обученная модель используется покупателем только для заявленной задачи (проверки), эта модель также обучена плохо выполнять все другие задачи, кроме задачи проверки. Таким образом, он не сможет выполнять «многозадачность», что приятно.

Дилер: комплексный рынок данных с модельным ценообразованием (https://arxiv.org/pdf/2003.13103.pdf)

Авторы рассматривают систему с тремя сторонами — владельцами данных, покупателями модели и промежуточными брокерами, причем данные не продаются, а окончательная модель продается брокером. Они также используют значения Шепли для назначения точных вознаграждений каждому владельцу данных за их роль в обучении окончательной модели. К сожалению, точное вычисление этих значений Шепли дорого и требует много времени. Поэтому они моделируются с использованием методов Монте-Карло.

Одна реальная проблема, которую они решают, заключается в том, что разные модели дают разные результаты, даже если они имеют одинаковые обучающие данные. Таким образом, данные оцениваются в зависимости от типа и использования обучаемой модели. Они позаботятся о математическом определении функции цены таким образом, чтобы «более дешевые» модели не могли быть злонамеренно объединены для формирования «дорогой» модели. Дифференциальная конфиденциальность используется во время обучения для защиты от утечки данных.

В целом обе вышеупомянутые статьи основаны на предположении, что продажа данных или моделей машинного обучения полностью автоматизирована. В реальном мире мы можем ожидать, что цены на наборы данных будут согласовываться торговыми представителями вручную в автономном режиме. Однако механизмы поощрения и вознаграждения применимы и к рынкам обмена данными с ручной оценкой.

О нас

В целом даже для конкурентов взаимовыгодно совместно работать над данными для моделей машинного обучения, поскольку нехватка данных — одна из основных причин провала многих проектов. Federata AI — компания, занимающаяся решениями для машинного обучения, которая специализируется на совместном обучении на частных данных. Мы помогаем в создании партнерств и альянсов данных для совместного машинного обучения на предприятиях. Свяжитесь с нами по электронной почте [email protected] или в Twitter (@federata1) для получения дополнительной информации.