В настоящее время использование машинного обучения (МО) значительно возросло в нашей повседневной жизни. Хорошо обученная модель машинного обучения может обеспечить выдающуюся производительность в конкретной задаче, однако ее можно легко сломать при столкновении с угрозами и противниками. Это связано с тем, что модель машинного обучения была разработана без противника и угрозы, поэтому трудно защититься от атаки злоумышленника, основанного на машинном обучении.

В основе машинного обучения безопасность — это поддержание конфиденциальности, целостности и доступности. Конфиденциальность — это свойство, при котором данные о конфиденциальности или параметры моделей машинного обучения недоступны для неавторизованных пользователей. Целостность означает поддержание и обеспечение точности предсказания данных. А доступность требует, чтобы модель ML всегда оставалась доступной, даже если она подверглась атаке. Вместе эти три свойства образуют модель безопасности ЦРУ.

Система машинного обучения может преследоваться злоумышленником в процессе обучения (когда модель обучается) или в процессе вывода (когда модель делает прогнозы). Во время обучения злоумышленник может внести изменения в существующие обучающие данные или вставить дополнительные данные в обучающий набор, чтобы разрушить модель. Или они просто искажают входные данные в процессе логического вывода, что может привести к неправильному предсказанию модели. Более того, в обоих процессах существуют проблемы с конфиденциальностью. Таким образом, следующее будет состоять из трех частей: безопасность данных, безопасность модели и конфиденциальность.

Безопасность данных

Атаки с отравлением данных включают в себя загрязнение обучающих данных модели машинного обучения. Это может сделать модели машинного обучения неточными, поскольку изменение данных обучения влияет на способность модели выводить правильные прогнозы. Например, в 2018 году некоторые злоумышленники пытались сбить фильтр Gmail с толку, сообщая о большом количестве спам-писем как о спаме. Это может привести к перекосу модели при классификации спам-писем.

Отравление данными может быть достигнуто либо в сценарии «черного ящика» против классификаторов, которые зависят от отзывов пользователей для обновления параметров, либо в сценарии «белого ящика», когда злоумышленник получает доступ к модели, а ее частные обучающие данные, возможно, собираются из нескольких источников.

Вредоносные входные данные обычно не распространяются по сравнению с данными естественного обучения, а это означает, что вредоносные входные данные можно рассматривать как выбросы. Разработчики должны предусмотреть меры, которые могли бы либо блокировать попытки атак, либо обнаруживать аномалии.

Если бы модель была отравлена, ее нужно было бы переобучить, а это очень дорого. Исследование машинного обучения может решить эту проблему. Он направлен на разработку алгоритма, который может принимать в качестве входных данных обученную модель машинного обучения и выводить новую, в которой будут удалены любые конкретные обучающие данные. Для получения дополнительной информации см. [4].

Безопасность модели

На этапе вывода состязательные примеры могут заставить модель делать неправильные прогнозы, искажая входные данные. Чтобы получить представление о том, как выглядят состязательные примеры, рассмотрим демонстрацию в поле CV из [6]. Добавляя незаметно маленький вектор, элементы которого равны знаку элементов градиента функции стоимости относительно входных данных, можно изменить классификацию изображения CNN с панды на гиббона.

Другой пример из [7] в области НЛП.

В этой статье [7] исследователи создали состязательные примеры с триггерами, которые обычно запускают предсказание конкретной цели при объединении с любыми входными данными из набора данных. Для анализа тональности объединение отображаемого триггера привело к тому, что модель изменила свои правильные положительные прогнозы на отрицательные. Для SQuAD отображаемый триггер заставил модель изменить свой прогноз с подчеркнутого диапазона на желаемый целевой диапазон внутри триггера. Для языкового моделирования триггеры представляли собой префиксы, побуждающие GPT-2 генерировать расистские выходные данные, даже если они обусловлены нерасистскими входными данными пользователя.

Как мы защищаемся от враждебных примеров?

До сих пор два метода обеспечивали значительную защиту. Эти защитники пытаются сделать модель машинного обучения более надежной и смягчить враждебные примеры.

Состязательное обучение [9] генерирует множество состязательных примеров для обучения моделей машинного обучения с целью уменьшения изменений, вносимых возмущением.

Защитная дистилляция [10] сглаживает поверхность решений модели в направлениях, используемых противником.

Состязательные примеры показывают, что модели машинного обучения могут быть нарушены непредвиденными способами. Когда они сталкиваются с атаками, их поведение, возможно, сильно отличается от ожидаемого. Необходимы дальнейшие исследования, чтобы найти более эффективные методы предотвращения враждебных примеров.

Конфиденциальность

Для обучения моделей машинного обучения требуется значительный объем данных, в то время как некоторым приложениям машинного обучения приходится анализировать конфиденциальные данные. Модель может непреднамеренно сохранить некоторые из своих обучающих данных, которые, следовательно, могут раскрыть конфиденциальную информацию после тщательного анализа модели.

В идеале мы ожидаем, что модель ML изучает информацию об общем шаблоне, а не факты о конкретных обучающих примерах. Дифференциальная конфиденциальность является одним из распространенных методов. В обзорной статье [11] представлен исчерпывающий набор методов в области конфиденциальности.

Далее будет рассмотрен алгоритм PATE,сокращенно отPrivate Aggregation of Teacher Ensembles.[12]

Основная идея дифференциальной конфиденциальности заключается в рандомизации части поведения механизма для обеспечения конфиденциальности. В этой работе авторы обучают модель как обычно, но вместо этого добавляют шум к результатам. Причина, по которой они добавляют шум в модель, заключается в том, что они хотят убедиться, что модель изучила общую тенденцию, а не запоминала конкретный пример. Случайные числа улучшают обобщение модели, другими словами, вероятность изучения любого конкретного набора параметров должна оставаться примерно одинаковой, если мы изменим один обучающий пример в обучающем наборе.

Вдохновленный этим, подход PATE основан на интуиции, что если несколько разных классификаторов обучились на нескольких непересекающихся наборах данных и проголосовали за то, как классифицировать новый входной пример, то это решение не раскроет информацию ни об одном обучающем экземпляре, как они могут. не все запомнили этот пример. В PATE мы называем эти классификаторы моделями учителя. Ансамбль учителей обучается на отдельных подмножествах конфиденциальных данных. Гарантии конфиденциальности этого ансамбля учителей проистекают из его агрегации. Они добавляют шум при объединении прогнозов, сделанных индивидуально каждым учителем, в единый общий прогноз. Это обеспечивает правильность и конфиденциальность прогнозов.

Однако на данный момент есть несколько ограничений. 1) Каждое предсказание, сделанное механизмом агрегации, увеличивает общий бюджет конфиденциальности, что привело бы к слишком большому бюджету и сделало бы гарантии конфиденциальности бессмысленными. 2) Ансамбль моделей учителей не может быть опубликован.

Модель студента создается для решения этих проблем.

Модель студента обучается на общедоступных данных, помеченных с помощью ансамбля. Он учится предсказывать результат, выбранный шумным голосованием среди всех учителей, и не может напрямую получить доступ к отдельному учителю или базовым данным или параметрам. Злоумышленник может получить доступ только к модели учащегося и в худшем случае может восстановить закрытые метки, на которых тренировался учащийся.

Благодаря этим структурам платформа PATE успешно обеспечивает гарантию конфиденциальности обучающих данных.

Заключение

Ломать вещи легко, но защищать и оберегать — тяжелая работа. Изучение безопасности и конфиденциальности машинного обучения интересно, так как многие важные проблемы остаются открытыми. Цель этого блога — вдохновить читателей на повышение осведомленности о безопасности и защите конфиденциальности, а также внести свой вклад в решение некоторых из этих проблем.

Ссылка

[1] 机器学习模型安全与隐私研究综述 (jos.org.cn)

[2] https://en.wikipedia.org/wiki/Информационная_безопасность

[3] https://www.cleverhans.io/security/privacy/ml/2016/12/16/breaking-things-is-easy.html

[4] разучивание

[5] https://www.csoonline.com/article/3613932/how-data-poisoning-attacks-corrupt-machine-learning-models.html

[6] https://arxiv.org/pdf/1412.6572.pdf

[7] https://arxiv.org/pdf/1908.07125.pdf

[8] https://openai.com/blog/adversarial-example-research/

[9] https://arxiv.org/abs/1511.05432

[10] https://ieeexplore.ieee.org/document/7546524/

[11] расширение://bfdogplmndidlpjfhoijckpakkdjkkil/pdf/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F2005.08679.pdf

[12] https://arxiv.org/pdf/1610.05755.pdf

[13] ML с сохранением конфиденциальности с PATE https://www.youtube.com/watch?v=jm1Sfdno_5A