С распространением продуктов ИИ в реальной жизни люди постепенно полагаются на продукты, основанные на машинном обучении. Например, автономные автомобили полагаются на технологию компьютерного зрения для принятия решений; Продукты автоматического распознавания поиска, такие как Alexa, основаны на стремительном развитии систем обработки естественного языка и обработки голоса, чтобы сделать нашу повседневную жизнь более удобной. Некоторые больницы исследуют и разрабатывают медицинское компьютерное зрение, чтобы помочь врачам диагностировать заболевания.

Хотя разработка этих продуктов на основе ИИ со скоростью света шаг за шагом погружает нашу обычную жизнь, в ней есть потенциальная ловушка — безопасность ИИ. Представьте себе сценарий, в котором врач использует современную систему компьютерного зрения для диагностики заболеваний, а изображение на самом деле подверглось атаке таким образом, что люди не могут его воспринять, а затем дает неверный прогноз. Это может либо снизить эффективность и увеличить нагрузку на врача, либо даже научить врача принимать неверные решения. За проблемой кроется огромная скрытая опасность.

Интригующие свойства нейронных сетей, опубликованные в 2014 году, написали новую главу об ИИ. Авторы отметили, что добавление незаметного возмущения может привести к неправильной классификации всей сети. Удивительно то, что при одном и том же возмущении на одном и том же входе он может обмануть разные сети, что означает, что общие сети уязвимы для некоторых незаметных возмущений на входе. Основываясь на этом открытии, многие исследователи обратили внимание на состязательную атаку и надежность моделей машинного обучения. Сегодня я представлю два основополагающих документа по состязательному обучению и устойчивости: Объяснение и использование состязательных примеров и На пути к моделям глубокого обучения, устойчивым к состязательным атакам. Они заложили прочную основу для атак со стороны противника, а также предоставили широко используемые модели защиты для повышения надежности модели.

Объяснение и использование состязательных примеров

Эта работа является продолжением этого интересного вывода: некоторые модели машинного обучения уязвимы для враждебных выборок — незначительное отклонение от примера может обмануть модель и привести к неправильной классификации. Следовательно, в этой статье авторы указывают на математическую природу причин этих враждебных примеров: линейного поведения в многомерных пространствах достаточно, чтобы вызвать враждебные примеры. Основываясь на этом открытии, они разработали знаменитую атаку Fast Gradient Sign Method (FGSM), а также предложили модель защиты для повышения надежности.

Атака Fast Gradient Sign Method (FGSM)

Прежде чем углубиться в нападение, позвольте мне быстро представить предысторию этого. Авторов вдохновляет свойство признаков: точность признаков ограничена. Следовательно, чтобы ограничить особенности внутри возмущения, где x̃ = x + η, возмущение η должно быть меньше, чем точность признаков. Следовательно, чтобы лучше сформулировать проблему, классификатор авторов должен быть в состоянии классифицировать x и x̃, пока бесконечная норма η меньше, чем ϵ. Поскольку изменение активации, вызванное возмущением, может расти линейно с n, мы можем поддерживать x̃ с в диапазоне, но бесконечно малые изменения на входе могут в сумме привести к резкому изменению на выходе. Вот как изобретается FGSM.

Цифра о исходит из бумаги. θ — параметры модели, x — входные данные модели, а J(θ, x, y) — стоимость обучения нейронной сети. Следовательно, они построили линейную функцию стоимости вокруг текущего значения θ и применили функцию знака, чтобы получить оптимальное ограниченное возмущение с максимальной нормой, где — второй член результата: η = ϵsign(▽J(θ, x, y)) . На рисунке выше мы видим, что применение алгоритма градиентного восхождения успешно обманывает GooLeNet в ImageNet и позволяет классифицировать изображение панды как «гиббон» с достоверностью 99,3%. Эта атака проста и быстра, но очень эффективна. Эта атака полезна как способ ускорить обучение противника. Интуицию, стоящую за этой атакой, можно понять как «градиентное восхождение». Вместо градиентного спуска для минимизации потерь мы склонны максимизировать возмущение в пределах ограничения максимальной нормы, чтобы обмануть модель.

Состязательная тренировка

В Интригующих свойствах нейронных сетей авторы упоминают, что совместное обучение модели искаженными и чистыми данными может упорядочить модель. Следовательно, в этой статье авторы применяют эту идею и реализуют регуляризатор. Следующая формула представляет собой целевую функцию противника, основанную на атаке FGSM:

В этом регуляризаторе они добавляют метод быстрого знака градиента, направленный на обновление враждебных выборок и борьбу с текущей моделью.

Вот как состязательная подготовка была введена в академические круги. Они намерены включить состязательные образцы в процесс обучения и обучить модель защиты, чтобы повысить ее надежность.

Результат эксперимента

В следующей таблице показана эффективность FGSM для различных моделей и наборов данных. Из таблицы видно, что нейронные сети уязвимы для атаки FGSM.

Позже авторы применили регуляризатор, обученный состязательно, к сети maxout. Частота ошибок снизилась с 0,94% до 0,84%, что говорит о том, что регуляризатор с состязательным обучением работает хорошо.

Резюме статьи

В целом, в этой статье предложен простой и быстрый алгоритм — атака FGSM, а также предложено состязательное обучение, включенное в регуляризатор, для повышения надежности моделей машинного обучения.

На пути к моделям глубокого обучения, устойчивым к атакам со стороны

В этой статье они переопределили парадигму состязательного обучения в формулировку естественной седловой точки (минимум-макс). Они напрямую переформулируют состязательную тренировку и превращают ее в задачу оптимизации. Они также обеспечивают единое представление о некоторых предыдущих проблемах обучения противников. Кроме того, они разработали спроецированную атаку градиентного спуска в качестве надежного противника первого порядка.

Мин-макс рецептура

В формулировке он сочетает в себе состязательную модель с популяционным риском. Ниже показана формула. Предпринято несколько шагов. Во-первых, они определяют атаку, где S — набор допустимых возмущений, и пытаются максимизировать функцию потерь с нормой l_infinity. Затем они объединяют оптимальную атаку с популяционным риском и пытаются минимизировать риск. Так работает формула минмакс. Интуиция, стоящая за этим, находится в пределах допустимого возмущения, они пытаются максимизировать модель атаки, сводя к минимуму риск.

Таким образом, эта формулировка обеспечивает унифицированную перспективу, связанную с такой предшествующей работой над устойчивостью к состязательным действиям в то время. Кроме того, эта формулировка корректирует парадигму состязательного обучения и указывает на четкую цель надежного классификатора.

Атака прогнозируемого градиентного спуска (PGD)

Помимо формулировки minmax, они также упомянули проецируемую атаку градиентного спуска. Это более сильный противник — многошаговый вариант. Проект градиентного спуска — не новая идея. Интуиция, стоящая за этим, заключается в том, что они ограничивают градиент внутри нормального шара. Следующая формула показывает суть атаки PGD. Идея состоит в том, что вместо одноэтапного обновления, такого как FGSM, PGD предпочитает иметь небольшой размер шага, но больше итераций. Он применяет идею обрезки градиента — если градиент становится слишком большим, он масштабирует градиент, чтобы он оставался маленьким. Он ограничивает возмущение внутри шара нормы, и если градиент выходит за пределы сферы эпсилон (шар нормы), он будет снова спроецирован обратно в сферу, так что возмущение не будет слишком большим. Следовательно, он пытается найти оптимальное θ такое, чтобы оно находилось внутри ϵ.

Результаты эксперимента

В статье они провели несколько экспериментов. В следующей таблице показано, что PGD является наиболее успешной атакой с удержанием, где A означает саму атаку, A’ — независимо инициализированную и обученную копию сети, а B — из Пространства переносимых состязательных примеров.

На следующем рисунке показана производительность их сети, обученной со стороны злоумышленников, против противников PGD различной силы. Для ϵ ≤ значения, используемого во время обучения, производительность равна или выше. Кроме того, производительность PGD в сетях, обученных MNIST l2, низкая и значительно переоценивает надежность модели. Потенциально это может быть связано с тем, что атака, основанная на принятии решений, не использует градиенты.

Заключение

В предыдущих разделах я представил две обязательные к прочтению статьи в области противодействия и надежности. В первой статье обнаруживается, что основной причиной уязвимости нейронных сетей к враждебным возмущениям является их линейный характер, и разрабатывается простой и быстрый метод для создания враждебных примеров. Во втором документе модель защиты построена в рамках оптимизации минимальных и максимальных ограничений, так что на модель не так легко воздействуют атаки со стороны противника. Если вы заинтересованы в них, пожалуйста, прочитайте статьи, и я прикрепил ссылку в статье также в справочных разделах. Мой товарищ по команде Ganghua Mei написал статью о сертифицированной надежности, которая является продолжением состязательной подготовки, и, пожалуйста, не стесняйтесь читать его работу: https://medium.com/@meiganghua/provably-robust-adversarial-deep-learning-certified -defenses-an-introduction-e700e2d174f. Спасибо за прочтение! Надеюсь, вам интересна эта область.

Рекомендации

Гудфеллоу, Ян Дж., Джонатон Шленс и Кристиан Сегеди. «Объяснение и использование состязательных примеров». CoRR abs/1412.6572 (2015): н. стр.

Мадри, Александр, Александр Макелов, Людвиг Шмидт, Димитрис Ципрас и Адриан Владу. «На пути к моделям глубокого обучения, устойчивым к атакам со стороны противника». ArXiv abs/1706.06083 (2018): н. стр.

Сегеди, Кристиан, Войцех Заремба, Илья Суцкевер, Джоан Бруна, Д. Эрхан, Ян Дж. Гудфеллоу и Роб Фергус. «Интересные свойства нейронных сетей». CoRR abs/1312.6199 (2014): н. стр.

Трамер, Флориан, Николя Паперно, Ян Дж. Гудфеллоу, Дэн Боне и Патрик Макдэниел. «Пространство переносимых состязательных примеров». ArXiv abs/1704.03453 (2017): н. стр.