Практический пример «Важнейшего события»: Обеспечение безопасности, новых бизнес-моделей и искусственного интеллекта Insure для экономики CPS

Абстрактный

Мировая экономика ускоряется по пути массовой автоматизации и технологических изменений, трансформирующих традиционные концепции соответствия и обмена ценностями, позволяя отдельным человеческим и нечеловеческим субъектам определять ценность в киберфизической экономике и определять, как она обменивается.

Лежащие в основе цепочки создания стоимости киберфизической системы (CPS) переходят от монолитных и закрытых систем к распределенным, открытым: потоки данных динамически определяются между ранее неизвестными участниками, установленными на - спрос и распространение на несколько устройств, систем, организационных границ и юрисдикций.

Экономика [CPS], основанная на метаплатформах и интеллектуальных технологиях, будет поддерживать новые формы обмена ценностями, новые виды рынков, включая динамически определяемые рынки по требованию, и новые виды экономики, такие как экономика внимания, экономика репутации, экономика по требованию и экономика оптимизации ресурсов. (Гартнер, 10/2015)

Экономика репутации по запросу требует происхождения, надежности и точности выходных данных, генерируемых в рамках распределенных цифровых цепочек создания стоимости CPS. Следовательно, для обеспечения безопасности, соответствия и надежности современных систем CPS необходима возможность оперативной оценки рисков выходных данных.

Когда машинное обучение (ML) смешивается с этим сочетанием, цепочки создания ценности данных CPS с поддержкой ML становятся новой нормой. Некоторые из сегодняшних примеров:

  • Автомобильные датчики и алгоритмы событий вождения передают данные в мобильные приложения
  • Датчики изображения и алгоритмы обработки изображений передают данные в приложения безопасности, журналистики или медицинские приложения.
  • Датчики и алгоритмы отслеживания и отслеживания, передающие данные в производство, цепочку поставок и системы замкнутого цикла
  • Городские датчики и алгоритмы передают данные в приложения умного города
  • Спутники и алгоритмы обработки изображений, передающие данные в приложения для наблюдения за Землей

В этой статье описывается, как необходимо установить происхождение данных и оценку рисков для цепочек обработки данных. Следовательно, эту концепцию можно применить к любой цепочке данных CPS, мы сосредоточимся на примере «управления цепочками данных событий» в секторе мобильности.

Этот пример, выбранный для ясности и простоты, тем не менее гораздо шире применим к любой цифровой цепочке данных, поскольку мы считаем, что все метки машинного обучения со временем потребуют определенной оценки и оценки для безопасного, законного и/или использования. или ответственно.

Мы разделили этот пост на Medium на шесть частей:

1. Происхождение данных и оценка рисков в мобильных системах

Мобильные системы имеют очень низкую устойчивость к мошенничеству и злоупотреблениям. Они должны быть сделаны и поддерживаться в высокой степени устойчивыми к злоумышленникам, использующим киберфизическую систему с фальсифицированными данными, из-за влияния, которое эти данные могут оказать на системы безопасности и реальные результаты.

Хотя сегодня это не является широко распространенной проблемой, мы можем предположить, что в ближайшем будущем злоумышленники будут вносить сфабрикованные данные в мобильные системы, будь то для продажи поддельных данных, для манипулирования результатами систем трафика, для перенаправления ресурсов из законных источников данных или совершать промышленный саботаж (например, снижать рейтинги безопасности конкурентов или саботировать безопасность конкретной системы физического движения).

Нельзя недооценивать промышленный саботаж открытых систем СУЗ, совершаемый государственными субъектами. Сегодня иностранные государственные деятели нацелены на широкомасштабную дезинформацию людей, чтобы нанести ущерб кампаниям по вакцинации или манипулировать результатами выборов. Сегодня иностранные государственные субъекты уже саботируют безопасность наших систем открытой мобильности, подобно инциденту с атакой шифровальщика Colonial Pipeline в энергетической системе США.

Хотя мы можем надеяться, что злонамеренные действия такого рода будут происходить редко, кажется безопасным предположить, что просто жадные или злонамеренные люди с большей готовностью внедрятся в рынки данных и цепочки обработки; Оказавшись там, они продают и внедряют фальсифицированные, сфабрикованные или дублированные «спамовые» данные, которые необходимо будет идентифицировать и отклонить в целях безопасности потребляющих алгоритмов.

Учитывая эти стимулы, устойчивость к злоумышленникам быстро станет ключевым требованием для кибер-физических цепочек создания стоимости в секторе мобильности. Это может включать некоторую комбинацию поведенческой или доверительной аналитики датчиков, поставщиков данных, обязательных аудитов целых наборов данных и системы всеобъемлющего происхождения данных, поддерживаемой

  1. согласованные стандарты данных,
  2. идентификация, которая позволяет отслеживать любые данные процессов до поддающихся проверке источников в отдельных автомобилях и
  3. общесистемная структура доверия.

Растущее использование данных и Интернета вещей (IoT) во всех отраслях, включая логистику, производство и мобильность, открывает эру изобилия данных.

Обильные данные, безусловно, могут быть хорошей вещью, но только в том случае, если риск их использования может быть проанализирован с помощью скоринговых методов в автоматическом режиме. Предприятия и их системы теперь должны знать происхождение и риски данных из разных источников, прежде чем использовать их. Предприятиям нужны высокоавтоматизированные и поддающиеся проверке инструменты для оценки происхождения данных, что крайне важно для приложений машинного обучения; см. также Четыре причины, по которым происхождение данных имеет жизненно важное значение для аналитики и искусственного интеллекта.

В этой статье мы предлагаем и подробно описываем один такой механизм для установления происхождения данных в режиме реального времени по цепочке данных, которая получает данные о движущих событиях и обрабатывает их в метки машинного обучения, вызывающие опасные последствия.

Когда известно происхождение данных данной метки машинного обучения об опасном вождении, к ней может быть применена модель оценки, которая вычисляет риски использования метки данных для управления системой и автоматизированного принятия решений.

2. Обеспечение состязательной подлинности для меток машинного обучения

Проблема обнаружения поддельных данных не нова, и машинное обучение, по сути, наследует эту проблему от данных, которые оно потребляет. Фотографии и видео могут быть сфабрикованы очень изощренными способами, так что невозможно сразу отличить правду от лжи. Разработка генеративно-состязательных сетей (GAN) стала важной вехой в использовании машинного обучения для создания подделок следующего поколения, полученных из наборов обучающих данных, которые, по крайней мере, внешне выглядят аутентичными для людей-наблюдателей, имеют много реалистичных характеристик, если набор данных был достаточно качественная и аутентичная.

Нетрудно создавать поддельные сущности и контент — например, изображения или наборы телематических данных — от имени поддельных сущностей как для людей, так и для транспортных средств. Поскольку последствия поддельных данных могут быть очень серьезными, владельцы платформ будут нести ответственность за распространение поддельных наборов данных и ущерб, причиненный в результате использования этих данных. Реалистичные оценки рисков и ответственности вполне могут сдерживать разработку и применение этих технологий до тех пор, пока не будет адекватно проверено их происхождение для обучения наборов данных и подачи алгоритмов.

Доверие к подлинности, целостности и качеству данной метки данных ML может быть установлено с помощью следующих механизмов:

Другие гибридные модели, представляющие собой комбинацию алгоритмического анализа, происхождения данных и оценки, будут применяться для защиты будущих систем. Тем не менее, по сути, все анализы более эффективны в сочетании с механизмом оценки на основе репутации/происхождения, и эти механизмы требуют максимально широкой и всеобъемлющей системы репутации. По этой причине обсуждение того, как разработать лучшие, более глобальные системы репутации, оказывается неизбежным, поскольку использование одного только ОД не может адекватно проверить, что входные данные или основанные на них ярлыки не были фальсифицированы с использованием аналогичного ОД.

Подход 1. Современные местные системы репутации

Сегодня системы репутации работают в масштабе только на монолитных платформах, таких как Amazon или Facebook, и даже там они требуют значительных затрат на обслуживание и стимулирование. Как правило, рынок имеет собственную систему репутации, которая работает независимо и не зависит от уникальной личности. Отсутствие надежных механизмов проверки и оценки позволяет участникам манипулировать этими оценками, что, в свою очередь, искажает восприятие пользователями их самих или их конкурентов. Со временем ценовые ориентиры и поощрения уступают место рынку спама и мошенничества: продавцы и продавцы платформы Amazon покупают положительные или отрицательные отзывы, чтобы влиять на онлайн-репутации.

Существующие системы репутации работают изолированно и не подходят для открытой системы мобильности с еще более широким кругом участников. По сути, добиться соблюдения репутации не легче и фальсифицировать не сложнее, чем подлинность данных. Целостность и подлинность данных невозможно проверить без высокоуровневого доступа к реестрам удостоверений централизованной платформы, даже если предположить целостность содержимого этого идеально управляемого реестра.

Децентрализованные системы репутации и управляемые токенами реестры с псевдонимизацией, поддерживаемые блокчейном, смогут проверять и создавать уникальные цифровые удостоверения для всех участников открытой системы и агрегировать данные о репутации на всех платформах, где субъект данных дал согласие на сопоставление. репутационные цели. Тем не менее, этот так называемый подход сети доверия к федеративным/открытым репутационным публикациям находится на ранней стадии, и его собственные уникальные векторы атак еще предстоит проверить на реальном использовании ref. Пока такие системы не достигнут зрелости, такие виды децентрализованных оценок репутации можно рассматривать как один из многих источников данных для вероятностной гибридной модели оценки.

Подход 2: ограничения алгоритмического анализа выходных данных машинного обучения

Анализ выходных данных устройства IoT или алгоритма с помощью алгоритмов машинного обучения был достаточно эффективен на заре ИИ, но начал давать сбои. Существуют методы определения того, является ли данный набор данных поддельным или реальным:

Статические критерии для всех трех векторов анализа могут быть предоставлены вручную, но поскольку враждебные сети были обучены на исторических данных, они быстро преодолевают любой анализ, который также не является враждебным и самоуточняющимся. Это приводит к тому, что все эти три метода становятся тремя отдельными фронтами в «гонке вооружений» между самосовершенствующимися алгоритмами, в которой ни один из вышеперечисленных не является серебряной пулей, а скорее дополнительным вектором атаки. Читатель должен обратить внимание на логическую замкнутость в этом упражнении по категоризации, поскольку все три относятся к использованию машинного обучения для выявления побочных продуктов более простого или более старого машинного обучения в непрерывном процессе, который никогда не завершится, пока фальсификаторы не перестанут продвигать свои методы за пределы выявленных в настоящее время слабых мест. .

Все примеры взяты из сегодняшней гонки вооружений над изображениями, сгенерированными GAN, потому что это самый продвинутый и широко разрекламированный пример состязательных игр в кошки-мышки над алгоритмами анализа. В последние годы вредоносное ПО на базе ИИ и его обнаружение начали привлекать некоторое внимание, но, к счастью, пока это в основном теоретическая тема. Гораздо меньше [рецензируемых или даже опубликованных] исследований было проведено по фальсификации наборов данных о дорожном движении или по выявлению этих фальсификаций. Можно предположить, что упомянутых выше аналитических подходов будет недостаточно для того, чтобы отличить наборы реальных и поддельных данных о событиях вождения.

Подход 3: сквозное происхождение данных

В современном цифровом мире фраза «от начала до конца» звучит очень обнадеживающе, как и «подлинность». Возможность проследить часть данных до их происхождения, до точного устройства, которое первым провело измерение или зарегистрировало событие, и каждое событие данных в этой цепочке, по понятным причинам, является высокой планкой достоверности. Имея возможность регистрировать и аутентифицировать, каждое преобразование и вычисление актора на всем пути к строго идентифицированному источнику проверяет полную цепочку данных.

Однако полнота и достоверность цепочки данных — это не то же самое, что определенность ее результатов — во всяком случае, окончательные данные так же надежны и заслуживают доверия, как и самое слабое звено в этой цепочке. А в динамической цепочке данных или в непредсказуемом реальном контексте выбор какой связи на каждом этапе этой цепочки часто является результатом анализа, упомянутого в подходах 1 и 2. Надежность сети больше, но проблемы могут возникать в любом месте цепочки (в частности, в цепочках между разрозненными хранилищами и репутационными системами), которые не обнаруживаются в процессе проверки этой цепочки.

Подход 3 может быть плодотворно и эффективно применен в закрытой системе, где все действующие лица могут быть отслежены и проанализированы посредством централизованной координации. Возьмем, к примеру, схему машинного обучения, основанную на сквозной схеме, которая полностью реализуется в самом большом бункере/периметре из всех — Amazon. Там инженеры смогли создать систему для каталогизации и анализа всего процесса обучения машинному обучению, включая все его входные данные и уточнения, изолировав логические и физические операции, поскольку они полностью контролировали и отслеживали все входные данные и участников в системе. ». Прирост скорости и точности обучения заслуживает внимания, но по мере роста таких систем масштабное применение становится все более, а не менее дорогостоящим. А в менее монолитной среде, чем Amazon, со спонтанным вводом данных и неизвестными участниками, это было бы практически немыслимо.

Что касается расширения стратегий машинного обучения от подхода № 2 к происхождению данных в динамических цепочках, здесь это может быть даже сложнее, чем там, на техническом уровне, поскольку фундаментальное происхождение и следы данных, которые не поддаются внешней проверке, даже легче подделать, чем сами данные. . Таким образом, этот выходно-аналитический подход не может судить о качестве или надежности данных о жизненном цикле транспортного средства, телематических данных или меток машинного обучения вождения, которые включают слишком много других факторов, не отраженных в проанализированных данных.

Таким образом, динамическая цепочка требует не только сквозной прослеживаемости, но и способа «разветвления» этого следа, запроса или отслеживания неизвестных участников цепочки и цифровых удостоверений, закрепленных в глобальной системе доверия. Система, которая оценивает, оценивает и опрашивает этих неизвестных участников, является самой передовой и тщательной цепочкой данных — не только всеобъемлющей и аутентифицированной, но и богатой ссылками на дополнительную личность, данные и историю.

Подход 4: глобальное происхождение и глобальная оценка

Этот богатейший след данных основан на механизме извлечения этих «внешних данных», который мы называем моделью оценки. Это «оценивает» или оценивает риск использования меток данных машинного обучения, присваивая относительные значения надежности или проверки всем неизвестным субъектам. Поскольку чистый риск по-прежнему является основным требованием безопасности для любой системы распределенной мобильности, требуется максимально возможная точность при оценке акторов и агентов в системе, которые исторически наименее известны или наименее предсказуемы. Не имея возможности обращаться к централизованному глобальному оракулу для обеспечения доверия и точности, следующим лучшим вариантом после утопического механизма глобального надзора является гораздо более практичный механизм глобального взаимодействия основных фактов для репутации и аудита.

Чтобы устранить эти недостатки, мы предлагаем привязать как можно больше данных к децентрализованной мета-платформе идентификации и использовать функции PKI этих публично привязанных удостоверений для электронной подписи каждого события генезиса и преобразования, чтобы превратить цепочку данных в глобально проверяемая и репутационная цепочка данных.

Только система репутации, привязанная к максимально нейтральному и полному аудиторскому следу, может оценить надежность алгоритмов обработки с соответствующей степенью доверия, которая выражается в оценках риска.

Алгоритм оценки может запрашивать учетные данные жизненного цикла у поддающихся проверке цифровых двойников субъектов идентификации, участвующих в цепочке обработки данных. Таким образом, результирующая метрика оценки может отражать общую совокупную достоверность и точность метки машинного обучения. Потребители этих марок, по-видимому, будут платить больше или полагаться в своем решении о риске только на более надежные марки.

3. Глобальное происхождение на основе проверенных цепочек данных

Примечание. В этом документе используется текущая терминология W3C в отношении децентрализованного идентификатора и поддающихся проверке учетных данных при обработке данных о дорожно-транспортных происшествиях.

Предлагаемое нами приложение превращает данные о вождении в децентрализованные автоматические данные, известные как «DAD». Это также позволяет постфактум проверять любой данный поток данных и оценивать достоверность выходных данных алгоритма машинного обучения. Поскольку выходные данные алгоритмов ML могут быть определяющими для нескольких систем управления, управления рисками и бизнес-систем в области мобильности, важно, чтобы любой объект мог оценить относительную надежность входных и выходных данных любых алгоритмов.

В нашем подходе используются криптографические структуры данных (также известные как цепочки учетных данных) для связывания объектов данных и установления метода происхождения потока данных. Они должны быть идентифицированы с помощью внешних разрешаемых общедоступных DID значительного возраста, как описано в Приложении A, чтобы гарантировать, что они создали положительную репутацию, не уклоняясь от отрицательной. Эти общедоступные якоря для репутации являются требованием для адекватной объективности в любой зрелой системе репутации. Они хорошо соотносятся с якорями доверия (обычно крупными учреждениями с государственным управлением и едиными процессами), которые структурируют большинство государственно-частных структур доверия, стабилизирующих и поддерживающих децентрализованные системы данных.

Под «происхождением потока данных» мы подразумеваем механизм отслеживания точек данных и истории контроля над ними через систему обработки, которая регистрирует любые преобразования в указанные точки данных. Сюда входят потоки с несколькими источниками, коллективное объединение датчиков и обработка алгоритмами машинного обучения. Полное происхождение потока данных предполагает не только отслеживание хранения данных, но и проверку сквозной целостности каждого потока данных, включая любые преобразования (добавления, удаления, модификации, комбинации и обработку ML). Следует отметить, что эти потоки могут быть простыми линейными цепочками данных или ориентированными ациклическими графами (DAG) связанных проверяемых данных.

В мире состязательного обучения это может обеспечить необходимую отметку времени и аудит контроля версий, поскольку большинство алгоритмов со временем становятся менее надежными, поскольку состязательные алгоритмы опережают их по сложности. Точное знание когда метка или алгоритм выполнили свою работу, также позволяет узнать, на какой версии или стадии эволюции они находились, когда эта работа была завершена — насколько полезными или заслуживающими доверия являются их результаты, зависит от того, что произошло с тех пор.

Когда DID тесно связан с машиной и, таким образом, криптографически подписывает все данные, которые он передает, цепочка происхождения потока данных может обеспечить основу для проверяемых заявлений и свидетельств о самом потоке данных, а также для механизмов репутации. Эти поддающиеся проверке цепочки данных и механизмы репутации позволяют ненадежным субъектам оценивать достоверность, надежность или показатели риска этой машины. Эти суждения могут быть сделаны непосредственно из данных этой машины и/или косвенно, изучая общедоступные/открытые реестры и системы репутации, которые ранее отслеживали ее.

Не выходя из сектора мобильности, приложения для таких проверяемых цепочек данных распространяются на любое количество вариантов использования: оценка транспортных средств в режиме реального времени, оценка опасного вождения, картирование дорог и препятствий, страхование на основе использования (UBI), надежная обратная связь. петли в системе помощи водителю (DAS) и автономных инфраструктурах вождения, кооперативных системах мобильности и, в более общем плане, в коммуникациях транспортных средств (как между транспортными средствами / «V2V», так и между транспортными средствами / «V2I»).

Наша концепция проверяемой цепочки данных поддерживает общую цель — продемонстрировать работающую технологию Blockchain/DLT в сценариях использования, управляемых данными в реальном времени, которые сегодня можно масштабировать для улучшения цифровых цепочек создания стоимости.

Поддающиеся проверке цепочки данных о движущих событиях

«Цепь» данных — это любая криптографическая структура данных, которая «связывает» подписанные объекты данных вместе (с однонаправленными или двунаправленными «связями» между объектами), устанавливая метод навигации для обширного источника и аудита потока данных. Происхождение потока данных позволяет проверить сквозную целостность каждого объекта потока данных и его преобразований (добавления, удаления, модификации, комбинации и машинное обучение).

Обработка данных о вождении уже используется во многих дисциплинах в секторе мобильности. Обработка данных о дорожно-транспортных происшествиях может включать несколько источников данных, сторон, алгоритмов и этапов обработки.

Человек или другой конечный пользователь цепочек данных о дорожно-транспортных происшествиях должен быть в состоянии проверить достоверность и точность выходных данных цепочки данных. Это требование приобретает критическое значение, когда выходные данные используются в случаях использования, связанных с безопасностью или защищенностью, или для принятия экономических решений со значительными коммерческими последствиями. Действительно, любое алгоритмическое принятие экономических решений чревато значительными последствиями в масштабе.

4. Минимальная модель данных для максимальной совместимости

Для создания поддающейся проверке цепочки данных требуется, чтобы все точки данных и связанные метаданные были подписаны известными/известными лицами. В системе DID/VC эти идентификаторы представлены парами закрытый/открытый ключ, которые криптографически подписывают «конверты», содержащие точки данных. (Сегодня это могут быть вице-президенты, венчурные капиталисты или в более надежной, контролируемой среде голые JWE, но со временем, вероятно, появятся и другие гибридные решения. W3C работает с IETF и IANA над стандартизацией кодирования данных, расширяя эту модель на другие виды. сетей передачи данных за пределами TCP/IP.)

Следующий фрагмент кода иллюстрирует, как схема DID/VC может быть обернута вокруг полезной нагрузки ML в качестве метаданных, обеспечивающих проверку, связывающих цепочку. Он содержит метку машинного обучения («красный сигнал светофора»), информацию об алгоритме, создавшем метку (Алгоритм 1), и ссылку на предыдущий блок цепочки данных (идентификатор предыдущего блока), а также подписи и криптографические данные. трассировки для проверки и аудита метаданных.

HEADER: TOKEN TYPE & SIGNATURE ALGORITHM 
{
"typ": "JWT",
"alg": "ES256K-R"
}
PAYLOAD: DATA
{
  {
  "iat": 1546724123,
  "exp": 1546810523,
  "signer": {
    "type": "algorithm",
    "name": "Algorithm 1"
  },
  "data": {
    "claim": {
      "predictionLabel": "red traffic light, red traffic signal, stoplight",
      "predictionProb": "0.983483",
      "did": "did:ethr:0xe405b9ecb83582e4edc546ba27867ee6f46a940d"
    },
    "previousBlockId": "b86d95d0-1131-11e9-982e-51c29ca1f26e",
    "previousBlockHash": "307b817de9b7175db0ded0ea9576027efd64fb21"
  },
  "iss": "did:ethr:0x5ed65343eda1c46566dff6774132830b2b821b35"
}

Объект цепочки данных можно проверить, проверив подпись полезной нагрузки и ее историю. Цепочки криптографических данных позволяют пользователям проверять происхождение всех цепочек обработки данных о дорожном движении, включая подлинность и целостность входных данных, выходных данных и происхождение сенсорных устройств и алгоритмов обработки. Они также позволяют обновлять черные списки или списки наблюдения в случае злоумышленников или отозванного оборудования.

5. Цепочки обработки данных на основе DID и оценка рисков

Чтобы быстро перейти от модели данных к взгляду с высоты птичьего полета, мы могли бы сказать, что тесная привязка децентрализованной идентичности к отдельной точке данных, хотя и неэффективная, если рассматривать ее с такой точки зрения, на самом деле является наиболее элегантным и простым способом сделать данные действительно переносимы и делают оценку репутации надежной. Теперь мы обрисуем в общих чертах, как это работает в масштабе.

Чтобы создать более безопасную, отслеживаемую и сохраняющую конфиденциальность основу для связи между компьютерами с низким или нулевым уровнем доверия, мы рекомендуем:

  • создание поддающихся проверке цепочек данных для всей обработки данных о дорожно-транспортных происшествиях, включая оценку ее входных и выходных данных,
  • предоставление DID для каждого объекта или криптографического отпечатка набора данных для гармонизации и оптимизации этой инфраструктуры проверки во всех контекстах, а также
  • привязка цепочек данных к совместно поддерживаемым реестрам DID (таким как проверенный VC-эмитент для идентификации предприятия, проверенные списки DID выпуска OEM-производителей, децентрализованный эквивалент традиционных центров сертификации на основе TCP/IP). Их можно кэшировать и оптимизировать быструю и надежную проверку аппаратного и программного обеспечения без риска и накладных расходов на подключение к Интернету.

Поддающиеся проверке цифровые двойники всех этих физических машин, датчиков потоковой передачи данных и алгоритмов с контролем версий в такой системе обнаруживаются и адресуются через API, перечисленные в их DID. Чем более естественно и глубоко интероперабельны эти DID, тем меньше сложностей и ошибок вносит этот процесс разрешения; их не обязательно содержать в едином реестре и обращаться к ним с помощью одного и того же метода DID:Method, но это будет самая простая реализация.

При такой адресуемости можно эффективно реализовать гранулярный контроль доступа. Любой контрагент, имеющий соответствующие привилегии или проверенный, может затем запрашивать у цифрового двойника информацию обо всех организациях, датчиках, телематических устройствах, наборах данных, внешних источниках данных, программных алгоритмах и пользователях, участвующих в цепочке данных.

Этот подход будет иметь особое значение в ситуациях, когда доступны данные проверки или сравнительного анализа (или даже информация об отзыве заводов или обновления встроенного программного обеспечения) о сенсорных устройствах, транспортных средствах и алгоритмах, участвующих в обработке данных о вождении. В сочетании с системой репутации или проверки любой пользователь может рассчитать показатели достоверности и точности выходных данных, частично основанные на достоверности и точности его входных данных и входных данных этих входных данных.

При условии, что экономические стимулы для участия тщательно отслеживаются при их реализации, децентрализованные методы репутации могут быть интегрированы для оценки как отдельных цифровых двойников, так и целых цепочек данных.

Предстоит дальнейшая теоретическая работа и работа по стандартизации рамок доверия, показателей надежности и точности цепочки данных для моделирования и ускорения разработки таких систем в масштабе. Но чистый выигрыш в эффективности и обязательных стандартах безопасности можно предположить с уверенностью, подтверждая основные концепции.

Цепочка данных о событиях, связанных с опасным вождением, для автомобилей

Опасное вождение можно разделить на две группы:

  1. взаимодействие между автомобилем водителя и дорожной средой, а также
  2. Взаимодействие между автомобилем водителя и соседними транспортными средствами.

Были предложены различные методы повышения безопасности вождения. Такие методы можно условно разделить на пассивные и активные. Пассивные методы (например, ремни безопасности, подушки безопасности и антиблокировочные тормозные системы), которые значительно снизили количество смертельных случаев в результате дорожно-транспортных происшествий, были первоначально введены для уменьшения степени травматизма в результате аварии. Напротив, активные методы предназначены для предотвращения несчастных случаев. Системы помощи водителю (DAS) предназначены для того, чтобы как можно быстрее предупредить водителя или модуль автономного вождения о потенциально опасной ситуации.

Два класса дорожных событий могут происходить одновременно и приводить к определенным серьезным дорожным ситуациям. Автомобильная промышленность работает над активными методами и системами, включая алгоритмы машинного обучения, для анализа этих двух типов событий и выявления опасных ситуаций на основе данных, собранных различными датчиками, и данных из внешних источников. Выходные метки машинного обучения об опасных поворотах, дорожных препятствиях или плохом состоянии транспортного средства передаются в системы контроля, транзакций и управления рисками. В системах распределенной мобильности надежность и точность выходных меток должны поддаваться независимой проверке.

Ключевой вопрос: как я могу доверять идентификационным данным транспортных средств, сторонним данным и меткам машинного обучения, которые создаются и обрабатываются в рамках цепочки создания ценности распределенной мобильности?

Чтобы добиться достоверности выходных меток, мы предлагаем интегрировать исторические данные о событиях вождения из цепочек проверяемых данных, привязанных к DID, описанных выше, с алгоритмом машинного обучения рекуррентной нейронной сети (RNN), который создает проверяемое решение для вождения. Эта возможность проверки делает решение гибким, поскольку оно может самосовершенствоваться или даже упрощаться с течением времени по мере того, как новые параметры поступают в его собственную цепочку поставок данных, а не обновляться вручную сверху вниз. Это одно из многих расширений, которые могут быть построены после того, как будет заложен фундамент для этой архитектуры глобальных данных:

  1. Сквозная интеграция данных дистанционного зондирования (телематики) может быть тесно интегрирована с алгоритмами машинного обучения RNN через совместимую модель данных.
  2. Цепочки данных с криптографической защитой и поддержкой блокчейна перемещают данные из разрозненных хранилищ для разрешения споров путем обмена ключами, в то же время обеспечивая сильную кибер-физическую привязку к физическим активам.
  3. Репутационные системы и анализирующие их скоринговые механизмы можно было бы сделать достаточно объективными, если бы в них участвовали (пусть даже неравномерно) все участники рынка.
  4. Совместимая децентрализованная идентификация и проверяемый протокол цифрового дублирования более надежно взаимодействуют с другими цепочками создания стоимости.

Происхождение данных с оценкой

Происхождение данных об объектах, участвующих в цепочке обработки данных, и полученные в результате метки машинного обучения (с использованием DID, VC и DLT для обеспечения единообразия метаданных) обеспечивает основу для сложных форм оценки рисков, включая виды актуарных примитивов, необходимых для того, что называется Insure AI в сфере страхования. Гармонизированные данные (и, что более важно, метаданные) являются ключом к объективности ИИ, независимо от того, управляются ли они традиционными нисходящими способами, новыми формами репутации или новыми формами актуарного учета и рейтингов надежности.

Поддающиеся проверке учетные данные об субъектах идентификации, такие как транспортное средство, алгоритмы предварительной обработки и машинного обучения, могут быть обработаны в модели оценки для дальнейшего повышения качества данных о рисках для данной метки машинного обучения вождения.

Оценка происхождения данных транспортного средства на основе учетных данных транспортного средства является предшествующим уровнем техники. Сбор, анализ и оценка информации о происхождении путем извлечения, анализа и сравнительного анализа метаданных и общих артефактов о заданной конфигурации машинного обучения (ML) (наборы данных, модели, прогнозы, оценки и тренировочные прогоны) — это развивающаяся область для повышения надежности и безопасности алгоритмы машинного обучения.

Эталонная реализация

Spherity реализовала проверяемую цепочку данных для контролируемого сценария обучения с алгоритмом RNN для опасного вождения и облачной инфраструктурой, интегрировав исторические наборы данных о событиях опасного вождения, которые использовались для обучения модели RNN и для имитации потоков телематических данных транспортных средств, см. IEEE Data Provenance. в цепочках данных транспортных средств». Во второй итерации проекта парк реальных автомобилей и их живые данные из реального мира будут интегрированы в эту проверенную инфраструктуру цепочки данных.

Криптографическая структура данных позволила нам:

  • для подтверждения целостности цепочки данных,
  • чтобы идентифицировать все объекты, участвующие в создании конкретной метки машинного обучения, и
  • запросить учетные данные жизненного цикла этих объектов, чтобы предоставить модель оценки для соответствующей метки машинного обучения.

6. Будущие бизнес-модели

Мы можем только предсказывать, какие новые рынки и формы бизнеса могут возникнуть после того, как подобная исходная инфраструктура будет запущена в производство. Вот наши хорошо изученные гипотезы:

  1. Все (производители оборудования, владельцы и операторы активов) будут продавать данные, доступ к данным и проверку данных. Или, говоря иначе, было бы логично разделить доходы от продажи качественных сквозных проверяемых данных между всеми проверяемыми сторонами. Это будет стимулировать постоянное сотрудничество, гармонизацию и обслуживание общей инфраструктуры.
  2. Сертифицирующие компании по образцу современных органов по сертификации аппаратного и программного обеспечения (таких как TÜV и Underwriters Laboratories), скорее всего, будут предлагать инновационные синтетические предложения для сертификации продуктов машинного обучения. Кажется разумным, что такие сертификаты будут подтверждать целостность цепочки обработки и происхождение ее данных. В сочетании с их более традиционными сертификатами для предприятий, машин, алгоритмов и инфраструктуры такие компании, как TÜV, могут даже управлять своими собственными разрешенными, безопасными проверяемыми инфраструктурами цепочки данных и продавать доступ OEM-клиентам, мелким игрокам, регулирующим органам и арбитрам на разных условиях.
  3. Разработчики и операторы алгоритмов, скорее всего, будут соревноваться в том, насколько легко они интегрируются в эту экосистему сертификации/аудита. Рыночная премия (или доступ к более привлекательным рынкам данных), вероятно, будет зависеть от поддающегося проверке происхождения и качества их продуктов. Это может сочетаться с финансовыми и страховыми продуктами, такими как:
  4. Традиционный кредитный скоринг, например, используемый для оценки кредитоспособности отдельных лиц или рейтингов облигаций, может учитывать рейтинги оценки рисков продуктов, продаваемых или используемых предприятиями, или сертификаты жизненного цикла их продуктов.
  5. Insure AI поглотит программное обеспечение, поглотившее мир. Страховые пулы, продукты и деривативы, связанные с риском данной цепочки обработки данных, могут застраховать риски, точность и/или предсказуемость метки ML для использования третьей стороной. Это могло бы произвести революцию в обычном страховании или создать новые экосистемы взаимозависимых или конкурирующих посредников в более «децентрализованной» форме объединения рисков; это особенно трудно предсказать.

В целом затраты, связанные с низким качеством данных и манипулированием данными, могут быть значительно снижены, а описанные выше экономические возможности станут быстро реализуемыми по мере повышения минимального и среднего уровня качества данных на рынках.

Виды обнаружения и криминалистического аудита, необходимые как для обычного соблюдения нормативных требований, уголовных расследований, так и для разрешения споров, могут выполняться гораздо более эффективно, как только все конвейеры обработки данных станут доступными для проверки любому аудитору с надлежащим согласием или полномочиями. Это также способствует инновациям и гибкости бизнес-процессов, поскольку отдельные участники (даже не являющиеся людьми!) могут лучше оценивать риски динамического или спонтанного использования наборов данных, источников данных и алгоритмов.

Приложение A: Цифровые двойники, которые можно проверить

Цифровой двойник — это цифровое представление биологического объекта (человека, живого организма, организации), физического объекта (объектов, машин), цифрового объекта (цифрового актива, программного агента) или любой системы, состоящей из любой комбинации отдельных объектов.

Цифровые двойники могут представлять самые разные объекты и объекты, такие как датчики IoT, электронные блоки управления, запасные части, круглые объекты, транспортные средства, светофоры, въездные ворота, пользователи-люди или город, а также все, что находится между ними. Совсем недавно их начали использовать для представления нематериальных объектов, таких как услуги, код, данные, процессы и знания. Данные цифрового двойника могут состоять из любых атрибутов жизненного цикла, метаданных, показаний внешних датчиков, защищенных от несанкционированного доступа телематических выходов или даже расчетных данных и других показателей трафика.

Поддающийся проверке цифровой двойник — это цифровой двойник с атрибутами, представленными поддающимися проверке учетными данными. Эти атрибуты, такие как свидетельство о рождении, подтверждение подлинности, отчет о калибровке или аттестация данных датчика, могут быть независимо проверены любой третьей стороной.

Этот тип цифрового двойника предоставляет проверяемые данные о его создании, жизненном цикле, показаниях датчиков, командах привода или транзакциях. Эти поддающиеся проверке данные можно использовать для контрольных журналов, для принятия важных решений и для обратной связи в (автономных) системах управления.

При обработке событий опасного вождения необходимо учитывать следующие классы сущностей:

Поддающаяся проверке цепочка данных позволит нам оценить целостность и прозрачность обработки данных о дорожном движении, когда задействовано несколько третьих сторон, что обычно будет иметь место в будущих мобильных системах. Он также предоставляет (и возвращает) репутационную информацию о субъектах идентичности, имеющую отношение к доверию и платежам третьих лиц.

Алгоритм оценки может запрашивать учетные данные жизненного цикла у поддающихся проверке цифровых двойников субъектов идентификации. Таким образом, этот показатель оценки может отражать общую совокупную надежность и точность метки машинного обучения. Потребители этих этикеток, по-видимому, будут платить больше за более надежную этикетку, поскольку можно предположить, что этикетки будут конкурировать на доверии на таком рынке.

Для получения более подробной информации о нас, не стесняйтесь обращаться к Spherity. Вы также можете следить за Spherity на Medium, Twitter, LinkedIn или подписаться на нашу рассылку новостей.