Заключение серии «Основы дифференциальной конфиденциальности» и важный список ресурсов.

Резюме. Это шестая и ПОСЛЕДНЯЯ запись в блоге из серии Основы дифференциальной конфиденциальности, в которой обобщаются все предыдущие записи в блоге. Чтобы узнать больше подобных сообщений о дифференциальной конфиденциальности, подпишитесь на Shaistha Fatima в Твиттере.

Серия «Основы дифференциальной конфиденциальности»

Что такое дифференциальная конфиденциальность?
Глобальная и локальная дифференцированная конфиденциальность
Дифференциальное определение конфиденциальности
Типы запроса «Чувствительность и влияние на механизм дифференциальной конфиденциальности»
Дифференциальная конфиденциальность — механизмы добавления шума

Прежде чем мы перейдем к заключению, давайте взглянем на некоторые свойства дифференциальной конфиденциальности.

Качественные свойства дифференциальной конфиденциальности (DP)

Защита от произвольных рисков, помимо защиты от повторной идентификации.
Автоматическая нейтрализация атак связи, включая все те, которые предпринимались со всеми прошлыми, настоящими и будущими наборами данных и другими формами и источниками вспомогательной информации.

Атаки со связыванием:атака со связываниемвключает объединениевспомогательных данныхсдеидентифицированными даннымидляповторно идентифицироватьлиц. В простейшем случае атаку связывания можно выполнить черезсоединениедвух таблиц, содержащих эти наборы данных.

Простые атаки со ссылками удивительно эффективны:

1. Достаточно одной точки данных, чтобы сузить список до нескольких записей.

2- Сокращенный набор записей помогает предложить дополнительные вспомогательные данные, которые могут оказаться полезными.

3. Двух точек данных часто бывает достаточно, чтобы повторно идентифицировать огромную часть населения в определенном наборе данных.

4– Три элемента данных (пол, почтовый индекс, дата рождения) однозначно идентифицируют 87 % жителей США.

Количественная оценка потери конфиденциальности . Дифференциальная конфиденциальность не является двоичной концепцией и имеет меру потери конфиденциальности. Это позволяет сравнивать различные методы:

(i) Для фиксированного предела потери конфиденциальности, какой метод обеспечивает лучшую точность?

(ii) Какой из методов обеспечивает лучшую конфиденциальность при фиксированной точности?

Композиция. Количественная оценка потерь также позволяет анализировать и контролировать кумулятивную потерю конфиденциальности при нескольких вычислениях. Понимание поведения дифференциально частных механизмов при составлении позволяет разрабатывать и анализировать сложные дифференциально частные алгоритмы из более простых дифференциально частных строительных блоков.
Групповая конфиденциальность: DP позволяет анализировать и контролировать потерю конфиденциальности, понесенную группами, например семьями.
Закрытие при постобработке: DP невосприимчив к постобработке. Аналитик данных без дополнительных знаний о приватной базе данных не может вычислить функцию выходных данных дифференциально приватного алгоритма M и сделать его менее дифференциально приватным. То есть аналитик данных не может увеличить потерю конфиденциальности ни по формальному определению, ни даже в любом интуитивном смысле, просто сидя в углу и думая о выводе алгоритма, независимо от того, какая вспомогательная информация доступна.

Гранулярность конфиденциальности. Последнее замечание по определению DP.

(Примечание: степень детализации данных означает уровень детализации набора данных.)

Дифференциальная конфиденциальность обещает, что поведение алгоритма будет примерно неизменным, даже если изменить одну запись в базе данных. Но что представляет собой одна запись в базе данных?

Например, база данных в виде графика. Такая база данных может кодировать социальную сеть: каждый отдельный i∈[n] представлен вершиной в графе, а дружба между людьми представлена ребрами.

Это приводит нас к двум ситуациям:

(i) DP на уровне детализации, соответствующем отдельным лицам.

Это потребовало бы, чтобы алгоритмы DP были нечувствительны к добавлению или удалению любой вершины из графа. Это дает надежную гарантию конфиденциальности, но на самом деле может быть надежнее, чем нам нужно.

Добавление или удаление одной вершины может, в конце концов, добавить или удалить до n ребер в графе. В зависимости от того, что мы надеемся узнать из графа, нечувствительность к удалению n ребер может оказаться невыполнимым ограничением.

(ii) DP на уровне детализации, соответствующем краю.

Для этого алгоритмы DP должны быть нечувствительны только к добавлению или удалению одного или небольшого количества ребер из графа. Это, конечно, более слабая гарантия, но все же может быть достаточной для некоторых целей.

То есть, если мы обещаем ε-дифференциальную конфиденциальность на уровне одного ребра, то ни один аналитик данных не сможет сделать вывод о существовании любого подмножества (1/ε) ребер в графе.

В некоторых случаях большие группы социальных контактов могут не считаться конфиденциальной информацией. Например, человек может не чувствовать необходимости скрывать тот факт, что большинство его контактов находятся с людьми в его городе или на работе, потому что где он живет и где работает, общедоступная информация.

Точно так же может быть небольшое количество социальных контактов, существование которых очень важно. Например, потенциальный новый работодатель или близкий друг. В этом случае пограничной конфиденциальности должно быть достаточно для защиты конфиденциальной информации, при этом обеспечивая более полный анализ данных, чем вершинная конфиденциальность.

Конфиденциальность Edge защитит конфиденциальную информацию такого человека при условии, что у него меньше (1/ε) таких друзей.

Другой пример: дифференциально закрытая система рекомендации фильмов может быть разработана для защиты данных в обучающей выборке на уровне «события» отдельных фильмов, скрывая просмотр/оценку любого отдельного фильма, но, скажем, не скрывая индивидуального энтузиазма по поводу ковбойских вестернов или крови, или на «пользовательском» уровне всей истории просмотров и рейтингов человека.

Подводя итоги — ответьте на вопрос что, почему, когда, где, как?

(Примечание: они основаны на моем текущем понимании, пожалуйста, оставьте комментарий, если вы хотите обсудить что-либо из этого)

Что такое дифференциальная конфиденциальность?

Дифференциальная конфиденциальность — это система или инфраструктура, предлагаемая для лучшей конфиденциальности данных. Это свойство не баз данных, а свойство запросов. Интуиция, стоящая за этим, заключается в том, что мы ограничиваем, насколько может измениться вывод, если мы изменим данные одного человека в базе данных.

То есть, если влияние добавления или удаления данных человека на результат запроса велико, то это означает, что данные имеют высокую чувствительность, и шансы злоумышленника проанализировать их и найти какую-то вспомогательную информацию высоки. Другими словами, конфиденциальность скомпрометирована!

Чтобы избежать утечки данных, мы добавляем контролируемое количество статистического шума, чтобы скрыть вклад данных от отдельных лиц в наборе данных.

При обучении модели ИИ добавляется шум, при этом гарантируется, что модель по-прежнему получает представление об общей совокупности и, таким образом, обеспечивает достаточно точные прогнозы, чтобы быть полезными. В то же время противнику будет сложно извлечь какой-либо смысл из запрошенных данных!

Почему мы используем дифференциальную конфиденциальность?

В современном мире конфиденциальность является одной из главных проблем. Со всеми внедренными моделями науки о данных и искусственного интеллекта шансы на утечку конфиденциальности пользователей увеличились.

Иногда модели ИИ могут запоминать детали данных, на которых они обучались, и могут «слить» эти детали позже. Дифференциальная конфиденциальность — это основа (с использованием математики) для измерения этой утечки и снижения вероятности ее возникновения.

Когда и где мы можем использовать дифференциальную конфиденциальность?

Случаи использования дифференциальной конфиденциальности

Как мы можем использовать дифференциальную конфиденциальность?

PATE-анализ является одним из подходов к реализации ДП.

Подход PATE к обеспечению дифференциальной конфиденциальности для машинного обучения основан на простой интуиции: если два разных классификатора, обученных на двух разных наборах данных без общих обучающих примеров, договорятся о том, как классифицировать новый входной пример, то это решение не раскрыть информацию о любом отдельном обучающем примере. Решение могло быть принято как с одним обучающим примером, так и без него, потому что и модель, обученная на этом примере, и модель, обученная без этого примера, пришли к одному и тому же выводу.

Для лучшего теоретического понимания и объяснения: Конфиденциальность и машинное обучение: два неожиданных союзника?

Для практического примера кода: Обнаружение невидимого врага с помощью невидимых данных!

Несколько отличных ресурсов!!

Книги

Комикс

Видео

Теперь это не по теме, но вам может быть интересно — Подкаст от The Changelog, особенно о Практическом ИИ.

Общие ссылки на эту серию:

Спасибо, что досмотрели эту серию до конца. Не стесняйтесь публиковать любые комментарии или начинать обсуждение дифференциальных концепций конфиденциальности. Вы также можете проверить другие серии, которые я написал до этого: