Математические основы конфиденциальности

Эта статья готовит почву для того, чтобы математика сыграла свою роль в мире конфиденциальности.

Введение и определение

Итак, как и во всех наших математических предметах, которыми мы занимаемся, мы создаем формальную математическую структуру для изучения этого предмета. Как и во всех структурах, нам нужно иметь сущности и определить для них некоторые свойства, чтобы начать играть с ними и наблюдать, как раскрываются тайны. Структура, которую мы здесь создадим, называется Дифференциальная конфиденциальность. Термин «Дифференциальная конфиденциальность» — это не совсем структура, а определение, и он определяется как обещание, которое куратор данных (человек, который собирает данные) должен дать субъекту. (лицо, участвующее в процессе сбора данных). Неформальное определение или, лучше сказать, заявление об обещании звучит следующим образом:

Это заявление держателя данных (он же куратор) об обещании субъекта, участвующего в исследовании.

«На вас не повлияет, неблагоприятно или иным образом,
разрешение использования ваших данных в каком-либо исследовании или анализе,
независимо от того, какие другие исследования, наборы данных или источники информации (короче говоря, любая вспомогательная информация) доступны"

Некоторые тонкие моменты

Вы видите, что это сильное определение как таковое, почему мощное, потому что оно охватывает то, что иначе мы, возможно, не считали бы возможным. Обещание куратора гласит, что не только текущее участие не будет иметь никакого значения, но и то, что кто-либо участвовал раньше или будет участвовать в будущем, в сборе данных, это ничего не будет способствовать пониманию куратором относительно человека.

Еще одно важное примечание к определению заключается в следующем:
Здесь мы видим, что пункт «затронутый» охватывает только затрагиваемое участие, а не заключение исследования себя. Чтобы лучше понять, давайте возьмем пример. Рассмотрим этот сценарий:

Если во время сбора данных испытуемых спросили о курении, и исследование пришло к выводу, что курение вызывает рак. Это увеличивает страховой взнос для курильщика. В таком случае с точки зрения дифференцированной конфиденциальности, несмотря на то, что курильщик был затронут, конфиденциальность не была нарушена, даже если курильщик принимал участие в исследовании. Это связано с тем, что вывод исследования касался того, что повлияло на человека, а не на само участие, совокупная статистика оставалась бы неизменной независимо от участия курильщика.

Элегантность такого определения заключается в том, что, несмотря на строгие ограничения конфиденциальности, оно по-прежнему сохраняет полезность данных.

Прыжок в игру

Хотя приведенное выше определение не является столь строгим с математической точки зрения, приведенное выше определение будет именно тем, на чем мы будем основывать нашу строгость. Прежде чем мы углубимся в это, лучшей мотивацией было бы показать пример того, как разворачивается конфиденциальность. Мы рассмотрим простой алгоритм, известный как Техника рандомизированных ответов, которая была предложена задолго до того, как конфиденциальность стала серьезной проблемой, и она использовалась социологом для проведения опроса по инкриминирующему и табуированному поведению (употреблению наркотиков, сексу и т. жизней и т. д.)
Алгоритм работы следующий:

Вы (куратор) задаете вопрос «Q», на который будет дан ответ «да» или «нет» (пример: Вы курите? ). Чтобы ответить на этот вопрос, испытуемый выполняет следующую процедуру:
1. Подбрасываете монету, если орёл отвечает правдиво
2. Если при подбрасывании выпадает решка, подбрасываете другую монету
> 3.По результатам второго броска и независимо от того, совершили ли вы такое действие или нет, если выпал орел на втором броске, ответьте «нет», если решка, ответьте «да».

давайте посчитаем вероятность того, что кто-то ответит «да» (y):

т.е. вероятность того, что человек скажет «да», равна вероятности того, что у человека выпал орел, и он ответил на вопрос «да», плюс вероятность того, что он дважды выпал решка и, таким образом, ответил «да».
У нас должно быть так:

Таким образом получаем:

Здесь мы замечаем, что минимальная вероятность здесь равна 1/4 из-за шума, вносимого алгоритмом. Теперь любой, кто говорит «да», имеет правдоподобное отрицание в 25%, то есть он всегда может заявить, что он только что сказал «да», потому что решка выпала дважды (даже если сама правда, возможно, была сказана).

Магия алгоритма

Вам может быть интересно, что такого хорошего в этом алгоритме, мы могли бы добавить конфиденциальность, но добавив случайность (от второго подбрасывания монеты), мы добавили шум, и мы не сможем правильно использовать эти данные; но здесь вы можете ошибаться. Наша первоначальная цель никогда не заключалась в том, чтобы выяснить, что касается индивидуального поведения, но коллективного поведения, это означает, что нам нужно будет знать только что-то вроде того, каково среднее количество людей, которые ответили «да», и алгоритм помогает нам получить точное среднее значение без особого беспокойства. , Преимущество этого алгоритма заключается в том, что мы все еще можем исправить перекос результата, чтобы получить то, что могло бы быть фактической статистикой населения. Это можно сделать следующим образом: предположим, что skewed_result равен (sr), а истинный результат равен (tr), тогда:

в общем случае мы можем указать вес того, сколько шума необходимо добавить (вес обычно находится между 0 и 1), здесь мы предоставили равный вес как данным, так и шуму, который равен 0,5, поскольку монета честная. Но если бы у нас была нечестная монета, вес не обязательно был бы 1:1. И сверху мы можем рассчитать, каков истинный результат, следующим образом:

Пример

Теперь давайте посмотрим на практическую иллюстрацию. Предположим, вы хотите провести опрос по деликатному вопросу, например, какой процент людей использует контрафактное программное обеспечение. Естественно, люди не ответят вам прямо и могут вас заподозрить. Зная приведенный выше алгоритм RRT, вы можете использовать его для своего опроса здесь.

Предположим, что 40% людей использовали контрафактное программное обеспечение (вы этого не знаете), и поскольку вы использовали RRT, вы получите следующий результат:

1. В 50% случаев люди должны сказать правду с первого подбрасывания монеты (т.е. если выпадет решка), поэтому мы получаем = 50% из 40% = 40*0,5 = 20%
2. В остальных 50% случай, когда люди будут отвечать случайным образом, поэтому мы получим = 50% из 50 = 50 * 0,5 = 25%

таким образом, мы получим искаженную пропорцию = 25% + 20% = 45%

Теперь, скорректировав этот результат, мы получим = 45 * 2-50 = 40%, что является фактической пропорцией!!!

Вывод

Итак, в этой статье мы рассмотрели две важные вещи: одна — обещание дифференцированной конфиденциальности, а другая — алгоритм, известный как RRT, используемый для создания частного опроса. в следующих статьях мы полностью погрузимся в математику, связанную с предметом.