Слабое место ИИ: опасности ненадежных несертифицированных моделей

Автономный автомобиль безупречно перемещается по улицам Аризоны, когда внезапно он, кажется, пропускает очевидный знак остановки, проезжает через 4-полосную остановку и врезается в автомобильный переход с другого направления. Причина? Плохой актер наложил на знак нашивку и фильтр, похожий на саран. Человеческий глаз мог легко сказать, что это знак остановки, но в Deep Neural Net (DNN) этот знак был классифицирован как птица, сидящая на обочине дороги. Это всего лишь один пример уязвимостей, которые содержат современные модели искусственного интеллекта.

Термин «ИИ» широко используется и считается «ультра-умным», но на самом деле это может быть очень далеко от истины. Возрождение глубокого обучения в 2011 году в сочетании с доступом к дешевым вычислениям и растущей доступностью наборов данных послужило катализатором проникновения ИИ в организации всех форм и размеров. Будь то распознавание лиц для беспрепятственного прохождения таможни, распознавание голоса для доступа к вашему банковскому счету или классификация объектов для распознавания знака остановки в беспилотном автомобиле, общество доверяет постоянно растущей нагрузке на системы, которые, возможно, и не являются всем этим. безопасный. Это понятие приобретает все большую популярность, поскольку многочисленные научные статьи стремятся выделить многие способы обмана и манипулирования классификаторами.

Атаки на глубокие нейронные сети (DNN) бывают разных типов, включая вращение объекта, внедрение невидимого шума, размещение патча, измененную текстуру или регулируемое освещение, и это лишь некоторые из них. В недавней статье Google под названием «Adversarial Patch» группа исследователей обнаружила, что они могут ввести в заблуждение классификатор, применив распечатанный патч к любой сцене. Патчи были настолько эффективны, что заставляли классификаторы игнорировать все другие элементы в пространстве состояний и выводить классификацию, для которой был оптимизирован их патч. В приведенном ниже примере вы можете увидеть, как размещение патча рядом с бананом привело к почти 100% классификации как тостер.

В приведенных выше примерах люди все еще могут легко отличить исходный объект, однако состязательный патч сбивает DNN с толку из-за его недостаточной надежности. В случае размещения пластыря четкая видимость пластыря позволяет людям более легко идентифицировать потенциальное вмешательство в атаку. Однако альтернативные состязательные методы, такие как шумоподавление, обнаружить гораздо сложнее.

В отдельной статье исследования Google под названием «Объяснение и использование примеров противоборства» было обнаружено, что добавление незаметно маленького вектора к изображению может изменить его классификацию незаметно для человеческого восприятия. Как вы можете видеть в приведенных ниже примерах, добавление небольшого количества хорошо продуманного шума к изображению панды привело к тому, что классификатор решил, что это был гиббон с достоверностью 99,3%. Наиболее важным моментом, который следует здесь отметить, является то, что на изображении справа введенный шум в значительной степени не обнаруживается человеческим глазом.

Хотя практика обмана классификаторов с помощью состязательных атак не нова, возможность делать это контролируемым образом, незаметным для человеческого зрения, значительно сложнее. Овладение этой практикой, вероятно, приведет к множеству новых мошеннических атак в ближайшее десятилетие. Ниже я привел несколько возможных примеров.

Распознавание лиц не мешает этому плохому парню въехать в страну
Беглец хочет попасть в Австралию через законный таможенный контрольно-пропускной пункт, чтобы его не поймали. Преступник приобретает украденный паспорт в даркнете и придумывает себе нашивку на щеке. Этот патч заставляет классификатора думать, что он тот же человек, что и человек на украденной фотографии паспорта. Все проходит проверку, и человек беспрепятственно въезжает в страну, прежде чем кто-либо заметит, что произошло.

Поместите это резюме в кучу READ:
Компания из списка Fortune 500 получает 20 000 заявок в год. Стремясь встретить только лучших кандидатов, они используют ИИ для сортировки по нескольким переменным. (GPA / SAT / ect ..) «Лучшие» приложения читаются человеком и во многих случаях приглашаются на собеседование. Разочарованный отсутствием ответов, кандидат нанимает плохого актера для создания состязательной версии своего резюме, которое честно читается человеческому глазу, но классификатор показывает отличные результаты тестов, 4.0GPA и предыдущую работу в Google (нет из них верны). Кандидат проходит собеседование, потому что ИИ помещает его резюме в стопку для чтения.

Можно спросить, как это работает? Ответ кроется в способе построения нейронных сетей. Глубокие нейронные сети не смотрят на знак остановки и не видят знак остановки, вместо этого они видят массивную матрицу с миллионами измерений. У сетей есть набор переменных конфигурации («параметров»), которые оптимизированы, чтобы попытаться предсказать правильный результат. Когда поступает злонамеренный ввод с измененными данными, изменение может быть произведено в небольшой части матрицы, которую человек не обнаружит. Несмотря на это крошечное изменение, результирующее поведение сети может быть драматичным. Если состязательная атака была успешной, вычисленный результат может быть любым, что захочет злоумышленник.

Обман классификатора с помощью враждебных данных стал более обычной практикой. Проблема успешного проведения одной из описанных выше атак заключается не только в том, чтобы обмануть классификатор, но и в том, чтобы обмануть его, чтобы увидеть желаемый результат. Во многих случаях злоумышленники не имеют доступа к самим моделям, и им приходится работать методом проб и ошибок, чтобы вернуться к желаемой классификации. Несмотря на проблемы, связанные с созданием таких состязательных атак, мы начали видеть новые новаторские подходы к защите, предвидя предстоящие угрозы. От систем обнаружения шума до более точных математически сертифицированных структур искусственного интеллекта - мы увидели инновации и множество возможностей в этой области.

В ближайшие месяцы и годы все больше киберпреступников начнут использовать уязвимости DNN для облегчения своих атак. Помня об этом, мы постоянно ищем встречи с новаторами, создающими новые подходы к ИИ, которые решают эти слабые места. Если вы работаете над решением проблем в этой сфере, мы будем рады пообщаться.

Источники:
- https://www.zdnet.com/article/googles-best-image-recognition-system-flummoxed-by-fakes/
- https://arxiv.org/pdf/1412.6572.pdf
- https://arxiv.org/pdf/1312.6199.pdf
-https : //arxiv.org/pdf/1712.09665.pdf

Слабое место ИИ: опасности ненадежных несертифицированных моделей

Вопросы по теме