Азбука дифференциальной конфиденциальности

ОСВОЕНИЕ ОСНОВ

Азбука дифференциальной конфиденциальности

Руководство по пониманию основных определений и ключевых принципов

Дифференциальная конфиденциальность (DP) — это строгая математическая структура, которая позволяет анализировать и манипулировать конфиденциальными данными, обеспечивая при этом надежные гарантии конфиденциальности.

DP основан на предпосылке, что включение или исключение одного человека не должно существенно изменить результаты любого анализа или запроса, выполненного на наборе данных в целом. Другими словами, алгоритм должен давать сопоставимые результаты при сравнении этих двух наборов данных, что затрудняет определение чего-либо особенного в этом человеке. Эта безопасность предотвращает утечку частной информации, но все же позволяет извлечь из данных полезную информацию.

Дифференциальная конфиденциальность впервые появилась в исследовании «Дифференциальная конфиденциальность» Синтии Дворк [1], когда она работала в Microsoft Research.

Давайте рассмотрим пример, чтобы лучше понять, как дифференциальная конфиденциальность помогает защитить данные.

Примеры того, как дифференциальная конфиденциальность защищает данные

Пример 1

В исследовании, в котором изучается связь между социальным классом и состоянием здоровья, исследователи запрашивают у испытуемых личную информацию, например, где они живут, сколько у них денег и их медицинское образование [2].

Джон, один из участников, обеспокоен тем, что его личная информация может стать известна и повредить его заявкам на страхование жизни или ипотеку. Чтобы убедиться, что заботы Джона учтены, исследователи могут использовать дифференциальную конфиденциальность. Это гарантирует, что любые данные, которые будут переданы, не раскроют конкретную информацию о нем. Различные уровни конфиденциальности могут быть показаны в ситуации «отказа» Джона, в которой его данные не учитываются в исследовании. Это защищает его анонимность, поскольку результаты анализа не связаны ни с какими его личными данными.

Дифференциальная конфиденциальность направлена на защиту конфиденциальности в реальном мире, как если бы данные просматривались в ситуации отказа. Поскольку данные Джона не являются частью вычислений, результаты, относящиеся к нему, могут быть настолько точными, насколько точны данные, доступные всем остальным.

Точное описание дифференциальной конфиденциальности требует формального математического языка и технических концепций, но основная концепция заключается в защите частной жизни отдельных лиц путем ограничения информации, которую можно получить о них из опубликованных данных, тем самым гарантируя, что их конфиденциальная информация останется конфиденциальной.

Пример 2

Бюро переписи населения США использовало дифференцированную структуру конфиденциальности в рамках своей стратегии предотвращения раскрытия информации, чтобы найти компромисс между потребностями в сборе данных и отчетности и заботами респондентов о конфиденциальности. Вы можете найти больше информации о защите конфиденциальности, обеспечиваемой Бюро переписи населения США здесь. Более того, Гарфинкель объясняет, как DP использовался в данных переписи населения США 2020 года здесь.

Определение и ключевые понятия

Значение «дифференциала» в сфере DP

Термин «дифференциальная» конфиденциальность относится к его акценту на несходстве между результатами, полученными алгоритмом сохранения конфиденциальности на двух наборах данных, которые отличаются только данными одного человека.

Механизм М

Механизм M – это математический метод или процесс, который применяется к данным для обеспечения конфиденциальности и предоставления полезной информации.

Эпсилон (ε)

ε — это параметр конфиденциальности, который управляет уровнем конфиденциальности, обеспечиваемым механизмом дифференциальной конфиденциальности. Другими словами, ε регулирует, насколько выходные данные механизма могут различаться между двумя соседними базами данных, и измеряет степень потери конфиденциальности при запуске механизма в базе данных [3].

Более сильные гарантии конфиденциальности обеспечиваются меньшим ε, но в результате результат может быть менее полезным [4]. εуправляет количеством шума, добавляемого к данным, и показывает, насколько может измениться выходное распределение вероятностей при изменении данных одного человека.

Дельта (𝛿)

𝛿 — это дополнительная опция конфиденциальности, которая позволяет вам установить вероятность того, что ваша конфиденциальность будет скомпрометирована. Следовательно, 𝛿 контролирует вероятность серьезного нарушения конфиденциальности, когда добавленный шум (контролируемый ε) не обеспечивает достаточной защиты.

𝛿 — это неотрицательное число, которое измеряет вероятность утечки данных. Обычно он очень мал и близок к нулю. Это изменение упрощает проведение более сложных исследований и моделей машинного обучения, сохраняя при этом конфиденциальность (см. [4]).

Если 𝛿 низкий, меньше шансов, что чья-то конфиденциальность будет скомпрометирована. Но это дорого обходится. Если 𝛿 слишком мало, в данные может быть добавлено больше шума, что снизит качество конечного результата. 𝛿 — это один из параметров, который следует учитывать, но он должен быть сбалансирован с эпсилон и практичностью данных.

Раскрытие математики дифференциальной конфиденциальности

Рассмотрим две базы данных, D и D', которые отличаются только одной записью.

Формально механизм M является ε-дифференциально частным, если для любых двух смежных наборов данных D и D’ и для любого возможного выхода O выполняется следующее:

Однако мы можем переформулировать приведенное выше уравнение в терминах дивергенций, что приведет к следующему:

Здесь div[⋅∣∣⋅] обозначает дивергенцию Реньи. Дополнительную информацию см. в статье Ильи Миронова Дифференциальная конфиденциальность Реньи.

(ε, 𝛿)-ДП Определение

Рандомизированный M считается (ε, 𝛿)-дифференциально закрытым, если вероятность существенного нарушения конфиденциальности (т. е. нарушения, которое не произошло бы при ε-дифференциальной конфиденциальности) не превышает 𝛿. Более формально, механизм M является (ε, 𝛿)-дифференциально частным, если

Если 𝛿 = 0, то (ε, 𝛿)-ДП сводится к ε-ДП.

Механизм (ε, 𝛿)-DP можно неформально рассматривать как ε-DP с вероятностью 1 — 𝛿.

Свойства дифференциальной конфиденциальности

1. Иммунитет к постобработке

Дифференциально закрытые выходные данные могут быть подвергнуты любой функции или анализу, и результат будет по-прежнему поддерживать первоначальные гарантии конфиденциальности. Например, если вы примените механизм дифференциальной конфиденциальности к набору данных, а затем возьмете средний возраст людей в наборе данных, полученный средний возраст все равно будет дифференциально конфиденциальным и обеспечит тот же уровень гарантий конфиденциальности, что и исходный результат. предназначен для обеспечения.

Благодаря функции постобработки мы можем использовать дифференциально частные механизмы так же, как и общие. Следовательно, можно комбинировать несколько механизмов дифференциальной конфиденциальности, не жертвуя целостностью дифференциальной конфиденциальности.

2. Состав

Когда для одних и тех же данных используется несколько дифференциально-приватных методов или когда запросы объединяются, композиция является свойством, обеспечивающим применение гарантий конфиденциальности дифференциальной конфиденциальности. Композиция может быть как последовательной, так и параллельной. Если вы примените к набору данных два механизма, M1 с ε1-DP и M2 с ε2-DP, то композиция M1 и M2 не меньше (ε1 + ε2)-DP.

ПРЕДУПРЕЖДЕНИЕ. Несмотря на способность композиции защищать конфиденциальность, теорема о композиции ясно дает понять, что потолок существует; по мере того, как значение ε увеличивается, увеличивается и степень конфиденциальности, теряемой всякий раз, когда используется новый механизм. Если ε становится слишком большим, то дифференциальные гарантии конфиденциальности в основном теряют смысл [3].

3. Устойчивость к вспомогательной информации:

Дифференциальная конфиденциальность устойчива к вспомогательной информации злоумышленников, а это означает, что даже если злоумышленник имеет доступ к другим соответствующим данным, он не сможет ничего узнать о человеке из вывода DP. Например, если больница будет делиться конфиденциальной информацией о состоянии здоровья отдельных лиц, злоумышленник, имеющий доступ к другим медицинским записям, не сможет значительно расширить свои знания о данном пациенте из опубликованных данных.

Общие недоразумения

Понятие дифференцированной конфиденциальности было неправильно понято в нескольких публикациях, особенно в первые дни его существования. Дворк и др. написал короткую статью [5], чтобы исправить некоторые широко распространенные недоразумения. Вот несколько примеров распространенных недоразумений:

DP - это не алгоритм, а скорее определение. DP — это математическая гарантия, которой должен соответствовать алгоритм, чтобы раскрывать статистику о наборе данных. Несколько различных алгоритмов соответствуют критериям.
Различные алгоритмы могут быть дифференциально частными, но при этом удовлетворять различным требованиям. Если кто-то утверждает, что дифференциальная конфиденциальность, особое требование к соотношениям вероятностных распределений, несовместимо с каким-либо целевым показателем точности, он должен предоставить доказательства этого утверждения. Это означает доказательство того, что алгоритм DP никак не может работать в соответствии с определенным стандартом. Придумать такое доказательство сложно, и наши первые догадки о том, что возможно, а что нет, часто ошибочны.
Для любой базы данных нет «хороших» или «плохих» результатов. Ключевым моментом является создание выходных данных таким образом, чтобы сохранить конфиденциальность (идеальную или дифференциальную).

Заключение

DP зарекомендовала себя как жизнеспособная парадигма защиты конфиденциальности данных, что особенно важно в наши дни, когда машинное обучение и большие данные становятся все более распространенными. В этом эссе были рассмотрены несколько ключевых понятий, в том числе различные настройки управления DP, такие как ε и δ. Кроме того, мы предоставили несколько математических определений ДП. Мы также объяснили ключевые особенности DP и рассмотрели некоторые из наиболее распространенных заблуждений.

Азбука дифференциальной конфиденциальности

ОСВОЕНИЕ ОСНОВ