Состязательное машинное обучение во благо (учебник AAAI’22)

Примечание. Все содержание взято из учебника AAAI 2022, который читал Пин-Ю Чен.
Полное видео можно найти здесь.

Введение: AdvML во благо

AdvML (состязательное машинное обучение) — это исследование атак на алгоритмы и модели машинного обучения, а также защиты от таких атак.

Однако разработка технологии AdvML может также использоваться для разработки других приложений машинного обучения, помимо использования в атаках и средствах защиты.

Примеры AdvML

Вот два типа распространенных состязательных атак

Отравление данными

Злоумышленник пытается изменить обучающие данные, чтобы изменить способ классификации моделью хороших и плохих входных данных, что снижает точность модели и приводит к искажению модели.

Например, руководитель группы Google по борьбе со злоупотреблениями однажды описал атаки с отравлением данных на классификатор спама. Самые хитрые спамеры пытаются манипулировать классификатором сообщений Gmail, отмечая огромное количество спама как не спам.
Как показано ниже, в период с конца ноября 2017 г. по начало 2018 г. классификатор.

Бэкдор-атака

Бэкдор-атака — это особый тип отравления данных.
Модельный бэкдор относится к скрытым паттернам в глубокой нейронной сети, полученным в результате обучения. В отличие от прямого разрешения модели неправильно идентифицировать элемент, бэкдор-атака означает, что модель будет производить определенное скрытое поведение тогда и только тогда, когда во входных данных есть образец искусственного триггера; в противном случае работоспособность модели остается нормальной.

Для набора рукописных данных MNIST, который чрезвычайно часто используется в машинном обучении, некоторые ученые предложили внедрить набор данных бэкдора с помощью метода отравления данных и добиться успеха атаки более 99%, но это не повлияет на производительность распознавания. модели на обычных рукописных образцах.

AdvML во благо: применение этой техники другими способами

Вот два примера:

Безопасность данных

В статье «Радиоактивные данные: отслеживание через обучение» представлен метод, позволяющий узнать, использует ли модель наши обучающие данные. Мы добавляем невидимый шум (радиоактивные маркеры) к части наших данных, и если кто-то использует их в качестве данных для обучения, машина будет рассматривать шум как функцию, которую нужно изучить в процессе обучения, что приведет к более высокому косинусному сходству между распределением представления. и особенность этого маркера.

Подключение к AdvML: яд данных

Мы используем «отравленные данные» (радиоактивные данные), чтобы позволить модели, обученной с использованием наших данных, изучить добавленные нами фальшивые признаки (радиоактивные маркеры) и проверить, была ли модель искажена выходными распределениями, чтобы выяснить, содержат ли используемые ею обучающие данные наши данные. данные.

Перепрограммирование модели

Без настройки параметров модели обученная модель используется для других функций, отличных от обучения после «перепрограммирования».

Например, как показано на рисунке ниже, мы перепрограммируем модель, первоначально использовавшуюся для классификации животных, в модель для биомедицинского распознавания изображений. Мы не будем настраивать параметры исходной модели, а добавим кружок обучаемых пикселей на вход целевой области и сопоставим исходную классификацию с классификацией целевой задачи в выходной части модели.

Когда модель представляет собой черный ящик, мы угадываем наклон градиента модели через ввод и вывод и обновляем обучаемый пиксель, чтобы выровнять представление, созданное целевым доменом, с представлением исходного домена.

Благодаря перепрограммированию мы превзошли оригинальную SOTA в задаче классификации расстройств аутистического спектра (РАС) и добились эффективности данных и экономической эффективности.

Подключение к AdvML: Backdoor-атаки

В какой-то степени обучаемый пиксель можно рассматривать как «спусковой крючок» в бэкдор-атаке.

Отличие в том, что мы не устанавливаем триггер заранее и позволяем модели покинуть черный ход; вместо этого мы обучаем триггер, который может запускать заданную модель без вмешательства в процессе обучения.