Взгляд Аня на обзоры исследований, часть 3:Конфиденциальность бесплатно: как сгущение данных помогает конфиденциальности?авторы Тянь Донг, Бо Чжао и Линцзюань Лю.

По состоянию на февраль одной из моих целей было обобщать и излагать свои идеи в одной исследовательской статье каждую неделю. Этот третий документ посвящен рекомендации, посвященной сохранению конфиденциальности ML, в частности уменьшению утечки конфиденциальных данных в ML. В документе представлено одно из первых предложений по использованию методов уплотнения наборов данных для сохранения эффективности данных во время обучения модели и обеспечения конфиденциальности членства. Полный текст статьи смотрите здесь.

Прежде чем мы перейдем к подведению итогов, есть несколько терминов, которые сделали бы статью довольно длинной (и скучной для чтения), поэтому я сделал документ с этими терминологиями. Приятного чтения :D!

АБСТРАКТНЫЙ

Чтобы предотвратить утечку данных, исследователи создали генераторы данных, которые производят частные данные для обучения моделей. Однако существующие решения требуют больших затрат на обучение или имеют низкую производительность обобщения.

Это исследование предполагает, что уплотнение набора данных (DC), предназначенное для повышения эффективности обучения, также может генерировать частные данные, обеспечивая конфиденциальность БЕСПЛАТНО.

Исследование демонстрирует преимущество DC в отношении конфиденциальности путем установления связи между DC и дифференциальной конфиденциальностью. Исследование показывает, что существование одной выборки имеет ограниченное влияние на распределение параметров сетей, обученных на «m» синтезированных выборках. из «n» необработанных образцов с помощью DC. Другими словами, на производительность нейронных сетей не оказывало существенного влияния включение или исключение отдельных выборок в сжатом наборе данных. Таким образом, метод DC, используемый в исследовании, эффективен для уменьшения размера набора данных без ущерба для производительности нейронной сети.

Исследование также подтверждает визуальную и членскую конфиденциальность данных, синтезированных DC, путем запуска атак как на основе потерь, так и на основе правдоподобия. Исследование предполагает, что DC может повысить эффективность данных и конфиденциальность в машинном обучении.

ВВЕДЕНИЕ

Модели машинного обучения уязвимы для атак на конфиденциальность, включая инверсию модели, вывод о членстве и атаки на вывод свойств. Считалось, что генеративные модели, такие как GAN, являются альтернативой обмену личными данными, но они по-прежнему подвержены рискам конфиденциальности.

Дифференциальная конфиденциальность (DP) использовалась для разработки генераторов DP для решения этих проблем, но данные, создаваемые ими, имеют низкое качество из-за шума, вносимого DP. Методы DC направлены на то, чтобы сжать большой обучающий набор в небольшой синтетический набор, сравнимый с исходным с точки зрения обучения глубоких нейронных сетей.

В этой статье авторы исследуют возможность защиты конфиденциальности данных с помощью методов DC и показывают, что это может ускорить обучение модели, будучи бесплатным.

Они устанавливают связь между уплотнением набора данных и дифференциальной конфиденциальностью и обеспечивают теоретический анализ как линейных, так и нелинейных экстракторов признаков. Они также обнаружили, что данные, синтезированные DC, могут сохранять как эффективность данных, так и конфиденциальность членства при использовании для обучения модели, и перцептивно необратимы к исходным данным с точки зрения показателей подобия L2 и LPIPS.

КОНДЕНСАЦИЯ НАБОРА ДАННЫХ

В этом разделе будут обсуждаться вопросы уплотнения наборов данных и конфиденциальности членства в моделях машинного обучения.

Конденсация набора данных – это метод, используемый для уточнения знаний из большого набора данных в меньший синтетический набор данных.

Затем синтетический набор данных можно использовать для эффективного обучения глубоких нейронных сетей с умеренным снижением точности тестирования. В документе представлены различные методы уплотнения наборов данных, такие как уплотнение набора данных (DC) с сопоставлением градиентов, сопоставление распределения (DM) и индуцирующие точки ядра (KIP).

Конфиденциальность членства — это проблема моделей машинного обучения, которая включает защиту конфиденциальности отдельных точек данных, используемых в процессе обучения. В статье эта проблема не рассматривается подробно, но она является жизненно важной в области машинного обучения, поскольку использование конфиденциальных данных в моделях обучения может представлять угрозу для конфиденциальности отдельных лиц.

ЧЛЕНСТВО КОНФИДЕНЦИАЛЬНОСТЬ

Это жизненно важный аспект анализа конфиденциальности, поскольку он напрямую связан с конфиденциальностью личных данных. Эта концепция относится к способности определять, принадлежат ли входные данные обучающему набору данных модели ML.

Атаки на основе вывода о членстве (MIA) могут использоваться для определения конфиденциальности членства, даже если доступ к параметрам модели осуществляется только через черный ящик.

Существует два типа MIA: MIA, основанный на потерях и MIA, основанный на вероятности. Давайте подробнее рассмотрим, что означают оба термина:

MIA на основе убытков — это членство по прогнозируемым потерям. Если потери ниже порогового значения, входные данные считаются частью обучающих данных. Порог можно определить локально с помощью теневых моделей или оптимальной байесовской стратегии.

Атака на основе правдоподобия использует более продвинутый подход, который называется Атака отношения правдоподобия (LiRA). LiRA измеряет разницу в выходных данных модели, вызванную принадлежностью входных данных. Он делает это, подготавливая теневые модели перед атакой и измеряя средние значения и отклонения достоверности моделей для моделей IN и OUT. Достоверность модели для (x,y) определяется с помощью перекрестной энтропийной потери и логарифмической функции.

Затем злоумышленник оценивает вероятность того, что входные данные принадлежат обучающему набору данных, сравнивая достоверность модели-жертвы со средним значением и дисперсией моделей IN и OUT. Принадлежность выводится путем установления порога вероятности с заранее определенным пороговым значением. Это похоже на то, как детектив анализирует отпечатки пальцев подозреваемого и сравнивает их с отпечатками пальцев известных преступников, чтобы определить, к какой группе, скорее всего, принадлежит подозреваемый.

Оба метода направлены на то, чтобы определить, являются ли входные данные элементом определенного набора данных, но MIA на основе правдоподобия является более продвинутым и сложным методом, который использует статистические меры для сравнения выходных данных модели с выходными данными теневых моделей.

ПОСТАНОВКА ЗАДАЧИ

В задаче обсуждаются проблемы с использованием персональных данных для обучения моделей и потенциал MIA для моделей, обученных на необработанных данных.

В документе предлагается лучший протокол, в котором знания сначала извлекаются из данных путем создания синтетического набора данных S из необработанных данных T, а затем S отправляется на сервер для обучения модели.

В этом разделе определяется модель угрозы, которая предполагает сильного противника, который не имеет доступа к T, но имеет доступ к «белому ящику» как к синтетическому набору данных S, так и к модели fS, обученной на S.

Злоумышленник стремится изучить информацию о членстве T, делая вывод, принадлежит ли интересующая выборка x T. Злоумышленник имеет неограниченную вычислительную мощность для создания теневых синтетических наборов данных на основе данных того же распределения, что и T, и обучения теневых моделей на них. Доступ к параметрам модели через «белый ящик» не помогает MIA, поэтому другие преимущества доступа к fS через «белый ящик» опускаются.

Авторы обсуждают использование персональных данных для обучения моделей и потенциальные риски, связанные с атаками на вывод о членстве (MIA). Конфиденциальность членства относится к конфиденциальности лиц, чьи данные используются для обучения модели. Передача необработанных данных на серверы для обучения модели может быть рискованной, поскольку это может привести к потенциальной утечке данных к честным, но любопытным операторам. Поэтому они предлагают лучший протокол, который включает в себя сначала изучение данных путем создания синтетического набора данных S из необработанных данных T, а затем отправку S на сервер для обучения модели.

Модель угрозы для этой постановки задачи предполагает наличие сильного противника, такого как честный, но любопытный сервер, который не имеет доступа к T, но имеет доступ к «белому ящику» как к синтетическому набору данных S, так и к модели fS, обученной на S. Злоумышленник также знает распределение данных T и имеет неограниченную вычислительную мощность для создания теневых синтетических наборов данных на основе данных того же распределения, что и T, и обучения на них теневых моделей.

Согласно предыдущему исследованию, доступ к параметрам модели через «белый ящик» не обязательно помогает MIA. Поэтому авторы игнорируют другие преимущества, которые может дать доступ к fS по принципу «белого ящика». Это подчеркивает важность защиты конфиденциальности членства и предлагает протокол, который может помочь снизить риски, связанные с MIA.

ТЕОРЕТИЧЕСКИЙ АНАЛИЗ

Анализ основных компонентов (PCA) — это метод, используемый для уменьшения сложности больших наборов данных путем нахождения наиболее важных функций или переменных, которые объясняют большую часть вариаций данных.

a.k.a — метод уплотнения данных.

PCA делает это путем преобразования данных в новую систему координат, где первая ось (главный компонент) фиксирует наибольшее изменение данных, вторая ось фиксирует следующее наибольшее изменение и так далее. Это позволяет нам визуализировать и анализировать данные более управляемым способом, сохраняя при этом большую часть информации в исходном наборе данных.

→ Этот методповышает производительность контроллера домена, так как он делает базовое распределение данных более поддающимся моделированию с помощью этих методов.

→ В документе PCA использовался в качестве этапа предварительной обработки для метода KIP, который показал свою эффективность в сохранении конфиденциальности исходных данных, при этом обеспечивая точное обучение моделей машинного обучения. Авторы предположили, что в будущей работе можно будет изучить использование PCA в других методах DC, а также влияние коэффициента сжатия данных на конфиденциальность и полезность синтезированных данных.

Кроме того, это также затрагивает утечку конфиденциальности членства, вызванную удалением образца, ограниченным, когда синтетические данные намного меньше исходных данных. Это объясняет, почему синтетические данные могут защитить конфиденциальность членства в модели. Авторы также связывают свой анализ конфиденциальности с DP и используют эмпирический бюджет через MIA для измерения гарантии конфиденциальности против MIA. Авторы показывают, что модели, обученные на синтетических данных, достигают хорошего эмпирического бюджета и высокой точности, указывая на то, что синтетические данные являются лучшим вариантом для эффективного обучения моделей с сохранением конфиденциальности.

ОЦЕНКА

Авторы оценивают конфиденциальность членства fS для реальных данных и случайной инициализации, сравнивают DC с предыдущими генераторами DP и GAN и исследуют визуальную конфиденциальность данных, синтезированных DC. Они используют три набора данных: FashionMNIST, CIFAR-10 и CelebA для гендерной классификации. Они используют те же трехслойные сверточные нейронные сети, которые использовались в предыдущих работах, в качестве экстрактора признаков.

Они отмечают, что на CIFAR-10 и CelebA синтетический набор данных с инициализацией реальных данных дает более низкие показатели преимущества по сравнению с прямым использованием реальных данных для обучения (базовый уровень), но на FashionMNIST базовый уровень имеет более низкие показатели преимущества. Они подозревают, что это связано с тем, что изображения FashionMNIST имеют оттенки серого, а синтетические данные содержат больше функций, которые легко запомнить.

Авторы сравнивают производительность различных методов создания синтетических наборов данных и их влияние на эффективность обучения моделей машинного обучения.

Во-первых, они сравнивают показатели точности моделей, обученных на синтетических наборах данных, созданных с использованием различных методов, таких как DC, DSA, DM и KIP. Они обнаружили, что при том же ограничении эффективности обучения DC и DSA превосходят другие методы. Они отмечают, что модели, обученные на данных, синтезированных с помощью KIP, обеспечивают более низкую точность, чем базовый уровень, поскольку потери трудно сойтись для больших ripc. 10 и наборы данных CelebA.

Затем они исследуют, как DC повышает эффективность обучения модели по сравнению с cGAN. Они делают это, сравнивая значения ripc, необходимые для наборов данных, сгенерированных cGAN, и наборов данных, сгенерированных DC, для достижения одинаковой точности fS. Они обнаружили, что cGAN необходимо генерировать больше данных для обучения модели, которая достигает той же точности, что и модели, обученные на данных, синтезированных DM и DSA. DC повышает эффективность обучения (измеряемую ripc) как минимум в 2 раза по сравнению с cGAN приripc = 0,01.

Наконец, они сравнивают производительность генераторов DP, таких как DP-MERF, GS-WGAN и DPSinkhorn, с данными, синтезированными DC. Они обнаружили, что точность моделей, обученных на данных, сгенерированных современным генератором DP (DPSinkhorn), по-прежнему ниже, чем на изображениях, синтезированных DM, даже несмотря на то, что отношение для DP-Sinkhorn составляет ripc = 1. Это потому что DP предназначен для защиты от сильнейшего противника, имеющего доступ к процессу обучения генератора, что приводит к снижению полезности для обучения модели.

ВИЗУАЛЬНАЯ КОНФИДЕНЦИАЛЬНОСТЬ

В этом разделе авторы обсуждают, как злоумышленник может потенциально сделать вывод о принадлежности синтетического набора данных, напрямую сравнивая его с исходным целевым набором данных. Чтобы проиллюстрировать этот момент, авторы используют расстояние L2 и LPIPS, метрику восприятия с основой VGG, для измерения сходства между синтетическими и реальными изображениями.

Авторы представили наглядные примеры изображений, сгенерированных DM, и наиболее похожие на них реальные изображения на основе этих метрик.

На изображении выше показаны примеры изображений, сгенерированных DM, и их наиболее похожие на реальные изображения. В верхней строке каждого столбца показано синтетическое изображение, а в следующих трех строках показаны наиболее похожие реальные изображения на основе L2 и расстояния LPIPS.

Примечание. Реальные изображения имеют схожие контуры лица с синтетическими изображениями, но имеют более мелкие детали, такие как форма глаз, которые отличаются. Это открытие предполагает, что модели, обученные на синтетических наборах данных, защищают конфиденциальность исходных данных, поскольку сгенерированные синтетические обучающие данные утратили частные свойства реальных данных. Авторы также объясняют, что именно поэтому текущие атаки на вывод о членстве (MIA) терпят неудачу на моделях, обученных на синтетических наборах данных, потому что злоумышленник не может сделать вывод о конфиденциальности исходных данных из моделей, обученных на таких синтетических данных.

Другие ключевые выводы

ВЫВОДЫ

Этот документ был первым в своем роде, в котором методы объединения новых наборов данных были объединены в сообществе по вопросам конфиденциальности. Авторы провели как теоретический анализ, так и практическую оценку, такую ​​как визуальное изучение конфиденциальности и тестирование против атак на конфиденциальность, на наборах данных FashionMNIST, CIFAR-10 и CelebA.

В своей будущей работе они стремятся обобщить теоретические выводы на другие методы уплотнения наборов данных, изучая степень сжатия данных. В настоящее время большинство исследований DC сосредоточено на классификации изображений, и исследователи надеются расширить преимущества конфиденциальности на более сложные цели, такие как обнаружение объектов, и цели, не связанные с визуальным восприятием, такие как текстовые и графические приложения.

Некоторые выводы, которые я хочу оставить вам:

  • В статье исследуется использование методов DC для защиты конфиденциальности в моделях машинного обучения. DC включает в себя синтез меньшего набора данных, который фиксирует ключевые особенности исходных данных, защищая при этом конфиденциальность.
  • Существует теоретический анализ свойств конфиденциальности DC и оценивается его эффективность с помощью эмпирических тестов. Эмпирическая оценка включает в себя визуальное изучение синтезированных данных, а также тесты против атак с выводом о членстве на основе потерь (MIA) и атак LiRA.
  • Тесты показывают, что модели, обученные на данных, сгенерированных DC, обеспечивают лучшую защиту конфиденциальности по сравнению с моделями, обученными на исходных данных или других базовых методах.
  • Будущая работа включает в себя изучение использования DC для других задач машинного обучения, помимо классификации изображений, и изучение методов DC, которые удовлетворяют формальным дифференциальным формулировкам конфиденциальности.