Adversarial Vision Challenge на NIPS 2018 стартовал недавно и продлится до 1 ноября. Ключевым компонентом проблемы является способность атак запрашивать решение модели на самоопределяемых входных данных. Этот параметр имитирует сценарии реальных угроз (например, фильтры NSFW), а также предотвращает нежелательную защиту, такую ​​как маскирование градиента.

Если вы планируете принять участие в соревновании, вы должны знать об атаках / защите на основе передачи, атаках на основе решений и некоторых стратегиях защиты. Следующий список ссылок - хорошее начало для погружения в эти темы:

[1312.6199] Интригующие свойства нейронных сетей
Это первая статья, в которой были изучены состязательные примеры в области глубоких нейронных сетей и показано, что они передаются между моделями. Кроме того, это была первая статья, в которой предлагалось обучение соперникам.

[1802.00420] Обфусцированные градиенты создают ложное ощущение безопасности: обход защиты от состязательных примеров
Эта статья хорошо показывает, что в основном все предлагаемые защиты (кроме одной) на самом деле не делают модели более надежными, а скорее сбивают с толку атаки путем маскировки их градиентов или оценок уверенности. Это очень важный момент: то, что некоторые состязательные атаки терпят неудачу, не означает, что модель действительно надежна.

[1611.02770] Углубление в примеры переносимых противоборств и атак« черного ящика »
Повышает эффективность и размер возмущения атак, основанных на передаче, за счет передачи злоумышленников, которые обманывают целый ансамбль моделей.

[1712.04248] Состязательные атаки на основе решений: надежные атаки на модели машинного обучения« черный ящик »
В этой статье представлена ​​первая и пока единственная атака, основанная на принятии решений, которая может создавать минимальные состязательные примеры в ImageNet, просто запрашивая окончательное решение модели. Он также знакомит с используемой здесь таксономией (атаки на основе градиента, оценки, передачи и принятия решений).

[1602.02697] Практические атаки черного ящика на машинное обучение
Атака на основе принятия решения, основанная на обратном проектировании исходной модели. Он ограничен наборами данных с небольшой вариабельностью внутри класса, такими как MNIST или наборы данных уличных знаков.

[1706.06083] На пути к моделям глубокого обучения, устойчивым к состязательным атакам
Эта статья в настоящее время считается единственной эффективной защитой, которая может выдержать много месяцев тщательной проверки. Он основан на варианте состязательного обучения (противники генерируются итеративно и со случайным изменением начальных точек) и в основном ограничен MNIST.

[1803.06373] Adversarial Logit Pairing
Еще один многообещающий вариант состязательного обучения, основанный на логитах чистого и состязательного примеров. Один из наших базовых показателей обучается с использованием этого метода.

[1805.09190] Устойчивое восприятие через анализ путем синтеза
Эта многообещающая защита использует генеративную модель для распознавания и является первой, в которой состязательные примеры в MNIST начинают иметь смысл для людей. Пока этот метод ограничен MNIST или другими наборами данных с небольшой внутриклассовой изменчивостью.

[1707.04131] Foolbox: набор инструментов Python для проверки надежности моделей машинного обучения
Интерфейс задачи во многом вдохновлен и основан на Foolbox. В отличие от других библиотек, таких как CleverHans, Foolbox не зависит от фреймворка и реализует оболочки моделей для различных фреймворков DL, таких как Tensorflow, Keras, MXNet, Pytorch и других. Кроме того, Foolbox реализует широкий спектр различных состязательных атак, каждая из которых настроена на минимизацию враждебного возмущения.

[1610.00768] Технический отчет о библиотеке примеров противоборства CleverHans v2.1.0
Еще одна популярная библиотека, основанная на TensorFlow, которая реализует множество различных алгоритмов состязательных атак для оценки устойчивости алгоритмов машинного обучения.