Краткий обзор методов машинного обучения с сохранением конфиденциальности

Уважаемое сообщество AI Network

Что, если бы мы сказали вам, что вы можете обучить свою следующую модель машинного обучения AlphaGo с вашими личными данными в одноранговой сети, где работники конкурируют друг с другом за выполнение вашей работы, и, следовательно, вы должны заплатить самую низкую возможную цену в рынок, никогда не раскрывая свои данные или свою модель? Вы бы сказали, что это слишком хорошо, чтобы быть правдой, не так ли? Потому что это так. По крайней мере на данный момент.

AI Network работает над созданием глобальной P2P-платформы, на которой владельцы машин могут лучше использовать свои простаивающие вычислительные мощности, а исследователи машинного обучения могут разрабатывать свои модели с разумными затратами на выполнение. Однако, учитывая объем данных, которые будут передаваться между удаленными, неизвестными и ненадежными машинами, нетрудно понять, что конфиденциальность станет одной большой проблемой. Что касается конфиденциальности, то ответственность за защиту данных лежит как на провайдере услуг, так и на провайдере данных. Поэтому команда разработчиков AI Network подумала, что было бы неплохо поделиться некоторыми распространенными угрозами конфиденциальности данных, а также некоторыми контрмерами (плюс их ограничениями).

В недавней публикации Машинное обучение с сохранением конфиденциальности: угрозы и решения Аль-Рубайе и др. (далее авторы) классифицируют возможные угрозы конфиденциальности в ML на 4 типа и предлагают методы достижения ML с сохранением конфиденциальности (PPML). Хотя в документе конкретно не рассматривается машинное обучение в облаке или в сети P2P, проблемы, которые они обсуждают, являются частью проблем, которые нам, как команде разработчиков, и будущим участникам AI Network придется решать. Четыре категории атак на конфиденциальность в ML, обсуждаемых в статье, включают: атаки реконструкции, атаки инверсии модели, атаки с выводом членства и деанонимизацию. Рассмотрим каждую из них подробнее.

Реконструктивная атака

Когда злоумышленник восстанавливает необработанные личные данные из ваших векторов функций машинного обучения, это называется атакой восстановления. Здесь векторы признаков формируются из необработанных данных и используются со связанными метками для обучения и тестирования моделей машинного обучения. Авторы утверждают, что злоумышленники могут получить необработанные данные, если у них есть доступ к векторам признаков. В сети AI клиент предоставляет работникам данные и код для выполнения. Таким образом, если клиент хочет обучаться на частном наборе данных, он / она должен будет убедиться, что данные криптографически безопасны, а векторы признаков явно не хранятся в модели.

Отказ от хранения векторов признаков в вашей модели просто означает выбор алгоритмов машинного обучения, которые их не хранят, например избегая SVM и kNN. Однако криптографическая защита данных - это более сложная задача. Хотя теоретически блестящие решения были предложены для проблемы криптографической защиты данных, эта проблема обычно страдает различными практическими ограничениями. Мы сосредоточимся на четырех наиболее распространенных методах криптографической защиты данных, а именно на гомоморфном шифровании, искаженных схемах, совместном использовании секретов и защищенных процессорах.

Гомоморфное шифрование

Гомоморфное шифрование (HE) позволяет вам зашифровать ваши данные и поделиться ими с незнакомцем, а также позволяет незнакомцу выполнять операции с данными в их зашифрованном виде и возвращать вам результат в зашифрованном виде! В течение всего процесса этот незнакомец не сможет прикоснуться к вашим расшифрованным данным. Похоже, это идеальный метод шифрования, который решит все наши проблемы. Но есть одна загвоздка. HE шифрует каждый бит входных данных, которые используются для обработки огромной логической схемы, представляющей функцию. Обычно вы оцениваете результат по одному логическому элементу за раз. Более того, чтобы выполнить произвольную программу с зашифрованными данными, вам потребуется еще более затратная в вычислительном отношении начальная загрузка, чтобы уменьшить количество шума, вносимого из-за шифрования.

Первоначальное полностью гомоморфное шифрование (FHE) занимало более 900 секунд, чтобы сложить два 32-битных числа, и более 18 часов, чтобы их умножить [1]. Учитывая, что в наши дни наши обычные компьютеры работают за наносекунды (19 нс = 1 с), эти цифры звучат абсурдно. С тех пор было предложено множество улучшений в HE и его вариантах, которые снизили количество до пары миллисекунд [2,3,4]. Однако потребление памяти HE и накладные расходы на вычисления по-прежнему неприемлемы для многих приложений по сравнению с методами, не относящимися к HE, которые используются на практике. *

Искаженные схемы и разглашение секретов

Когда две стороны хотят сотрудничать при оценке модели со своими наборами данных, но не обязательно хотят делиться своими данными друг с другом, они могут искажать свои входные данные, а также создавать искаженную схему (GC) из функции, которую они хотят. выполнить. Они смогут получать искаженные выходные данные, даже не зная ни о каких данных другого человека или о вычислительной процедуре. [5] GC обеспечивает безопасное двустороннее вычисление, тогда как протоколы совместного использования секрета заботятся о безопасном многостороннем вычислении. GC и схемы разделения секрета также страдают от высоких вычислительных затрат, а вычисление AES занимает около 0,2 с. [6]

Безопасные процессоры

Кроме того, существуют защищенные процессоры, такие как Intel SGX, которые включают аппаратную безопасность, чтобы помочь уменьшить нарушения конфиденциальности и безопасности. SGX делает это, создавая память анклава, которая не может быть прочитана или записана извне анклава независимо от текущего уровня привилегий и режима ЦП [7]. Приложение SGX состоит из доверенного компонента (анклава) и ненадежного компонента (остальной части приложения), при этом только доверенный компонент имеет доступ к вашим личным данным. Поскольку одной из основных целей, поставленных Intel, является защита данных как в зашифрованной, так и в дешифрованной форме во время выполнения, SGX может быть очень полезен для экосистемы AI Network. Например, если администратор создает кластер SGX, он может защитить сотрудников от потенциально вредоносного кода и повысить конфиденциальность клиентов, тем самым укрепив доверие клиентов, использующих службу, и расширив их использование AI Network. Тем не менее SGX - не серебряная пуля, которая может решить все проблемы конфиденциальности и безопасности. Существует несколько задокументированных ограничений безопасности SGX [8,9], и в приложениях с высокой частотой системных вызовов снижение производительности может быть значительным. [10]

Атака с инверсией модели

Даже когда злоумышленник не имеет доступа к данным или векторам признаков, он / она может провести атаку с инверсией модели, используя результаты теста для создания векторов признаков, подобных тем, которые используются для обучения Модель ML. Если злоумышленник знает прогнозы модели, а также их значения достоверности, которые показывают, насколько мы уверены в результатах, он / она может попытаться найти «обратное» исходной проблеме машинного обучения и получить конфиденциальные данные клиента. Например, Fredrikson et al. смогли сформировать одно из лиц на основе данных обучения распознаванию лиц, которые люди могли распознавать в толпе со средней точностью более 80%, учитывая только имя человека и доступ API к модели машинного обучения [11].

К счастью, авторы уверяют нас, что этот тип атаки можно предотвратить или значительно снизить вероятность успеха злоумышленника. Это можно сделать, сообщая округленные значения достоверности или сообщая только предсказанные метки классов без раскрытия значений достоверности.

Атака на основе вывода о членстве

Несмотря на то, что вы тщательно зашифровали свои входные данные, потенциальные злоумышленники по-прежнему могут использовать результаты вашей модели, чтобы «сделать вывод», было ли определенное подмножество данных в данных, используемых для обучения модели. Это называется атакой на основе вывода о членстве. Авторы вводят возмущающие подходы как эффективные меры по предотвращению таких атак. Подходы к возмущениям - это методы сохранения конфиденциальности, которые «возмущают» данные, то есть делают данные зашумленными или непонятными.

Методы дифференциальной конфиденциальности (DP) известны тем, что используются Apple с 2016 года, чтобы помочь обнаружить шаблоны использования большого количества пользователей без ущерба для личной конфиденциальности [12]. Чтобы скрыть ссылку от данных к человеку, DP добавляет к данным случайный шум, делая компромисс между точностью и конфиденциальностью. В DP есть понятие бюджет конфиденциальности, который, по сути, представляет собой допустимый объем утечки данных. Frederikson et al. показал, что в зависимости от того, как вы устанавливаете свой бюджет конфиденциальности, прогнозы вашей обученной модели могут значительно различаться. В своем примере они обучили модель, которая принимает решения о дозировке для клинических пациентов, и обнаружили, что для бюджетов конфиденциальности, эффективных для предотвращения атак, пациенты будут подвергаться повышенному риску инсульта, кровотечений и смертности [13].

Снижение размерности (DR) - это еще один метод возмущения, который торгует точностью в пользу конфиденциальности, проецируя данные на гиперплоскость более низкого уровня. Однако авторы отмечают, что приближение данных все еще можно получить из уменьшенных размеров. Поэтому DR следует использовать только в сочетании с другими методами повышения конфиденциальности.

Деанонимизация

Деанонимизация или повторная идентификация также может поставить под угрозу конфиденциальность за счет использования вспомогательной информации. Даже без данных или после того, как личные идентификаторы были удалены из данных, злоумышленники могут собирать другие сведения, чтобы вывести личную информацию человека. Печально известный пример - исследование, проведенное Narayanan et al. в наборе данных Netflix Prize. [14] Без какой-либо личной информации о подписчике Netflix они смогли продемонстрировать, что злоумышленник, который мало знает об отдельном подписчике, может легко идентифицировать запись этого подписчика в наборе данных, и они также успешно идентифицировали записи Netflix известных пользователей, раскрытие их очевидных политических предпочтений и другой потенциально конфиденциальной информации .

Существуют и разрабатываются различные меры по сохранению конфиденциальности, но большинство из них имеют недостатки и все еще недостаточно практичны для использования в реальных приложениях, таких как AI Network. Ситуация может измениться и, вероятно, изменится по мере того, как исследователи безопасности будут продвигаться к более эффективным и действенным механизмам. Однако до тех пор любой, кто хочет запустить свой код на другом компьютере, должен будет опасаться этих угроз конфиденциальности и понимать, на какие компромиссы они идут при выборе превентивных мер.

* Существуют несколько более быстрые, но ограниченные версии HE, такие как Something Homomorphic Encryption, который поддерживает только одну операцию (например, добавление), и Leveled Homomorphic Encryption, которое избавляет от дорогостоящих шагов начальной загрузки, но в то же время ограничивает глубину схемы. См. Link1 и link2 для получения дополнительной информации.

[1] Сяо, Лянлян, Осберт Бастани и И-Лин Йен. «Эффективный протокол гомоморфного шифрования для многопользовательских систем». IACR Cryptology ePrint Archive 2012 (2012): 193.

[2] Халеви, Шай и Виктор Шуп. «Алгоритмы в хелибе». Международная конференция по криптологии. Шпрингер, Берлин, Гейдельберг, 2014.

[3] Чиллотти, Илария и др. Улучшение TFHE: более быстрые упакованные гомоморфные операции и эффективная самозагрузка схемы. Архив Cryptology ePrint, Отчет 2017/430, 2017.

[4] Хесамифард, Эхсан, Хасан Такаби и Мехди Гасеми. «CryptoDL: глубокие нейронные сети с использованием зашифрованных данных». Препринт arXiv arXiv: 1711.05189 (2017).

[5] http://web.mit.edu/sonka89/www/papers/2017ygc.pdf (Якубов, София. Мягкое введение в искаженные схемы Яо.)

[6] Хуанг, Ян и др. «Более быстрые безопасные двусторонние вычисления с использованием искаженных схем». Симпозиум по безопасности USENIX. Vol. 201. №1. 2011 г.

[7] https://software.intel.com/en-us/sgx-sdk/details

[8] Шварц, Майкл и др. «Расширение защиты от вредоносных программ: использование SGX для сокрытия атак на кэш». Международная конференция по обнаружению вторжений и вредоносного ПО и оценке уязвимости. Спрингер, Чам, 2017.

[9] https://github.com/lsds/spectre-attack-sgx

[10] Вайсе, Офир, Валерия Бертакко и Тодд Остин. «Восстановление потерянных циклов с помощью HotCalls: быстрый интерфейс для безопасных анклавов SGX». Новости компьютерной архитектуры ACM SIGARCH. Vol. 45. №2. ACM, 2017.

[11] Фредриксон, Мэтт, Сомеш Джа и Томас Ристенпарт. «Модельные инверсионные атаки, использующие конфиденциальную информацию и основные меры противодействия». Труды 22-й конференции ACM SIGSAC по компьютерной и коммуникационной безопасности. ACM, 2015.

[12] https://developer.apple.com/library/archive/releasenotes/General/WhatsNewIniOS/Articles/iOS10.html

[13] Фредриксон, Мэтью и др. «Конфиденциальность в фармакогенетике: комплексное тематическое исследование персонализированного дозирования варфарина». Симпозиум по безопасности USENIX. 2014 г.

[14] Нараянан, Арвинд и Шматиков, Виталий (2008) «Надежная деанонимизация больших разреженных наборов данных». Материалы - Симпозиум IEEE по безопасности и конфиденциальности, стр. 111–125.

Telegram (английский): https://t.me/ainetwork_en

Электронная почта: [email protected]

Домашняя страница: http://ainetwork.ai/

Twitter: https://twitter.com/AINetwork1

Facebook: https://www.facebook.com/AINETWORK0/

Steemit: https://steemit.com/@ai-network

Бранч: https://brunch.co.kr/@ainetwork

github: https://github.com/lablup/backend.ai

reddit: https://www.reddit.com/user/ai_network