Состязательные примеры, призванные обмануть системы классификации изображений AI, в последние годы стали горячей темой для исследований и безопасности. Большая часть работы по созданию примеров состязательных изображений включала добавление пиксельных пертурбаций. Теперь исследователи из Китайского университета Гонконга, Университета Мичигана, CUHK - SenseTime Joint Lab, Китайского университета Гонконга и Университета Иллинойса в Урбане-Шампейне предложили новый подход к состязательной атаке, SemanticAdv, который генерирует враждебные возмущения, манипулируя не пикселей, а скорее семантические атрибуты изображения. Исследователи демонстрируют, что добавление к изображению примеров противоборства на основе семантики может ввести в заблуждение даже продвинутые системы распознавания лиц.

В этой статье мы стремимся исследовать влияние семантических манипуляций на предсказания DNN путем манипулирования семантическими атрибутами изображений и создания «неограниченных состязательных примеров». Такое возмущение на основе семантики более практично по сравнению с манипуляцией на уровне пикселей. В частности, мы предлагаем алгоритм SemanticAdv, который использует разрозненные семантические факторы для генерации враждебного возмущения путем изменения либо одного, либо комбинации семантических атрибутов. Мы проводим обширные эксперименты, чтобы показать, что состязательные примеры, основанные на семантике, могут не только обмануть различные обучающие задачи, такие как проверка лиц и обнаружение ориентиров, но также обеспечить высокий уровень успешности атак на реальные службы черного ящика, такие как служба проверки лиц Azure. Такие структурированные состязательные примеры с управляемыми семантическими манипуляциями могут пролить свет на дальнейшее понимание уязвимостей DNN, а также потенциальных защитных подходов. (arXiv).

Synced пригласил Самира Сингха, доцента компьютерных наук Калифорнийского университета в Ирвине (UCI), который работает над надежностью и интерпретируемостью алгоритмов машинного обучения, поделиться своими мыслями о SemanticAdv.

Как бы вы описали SemanticAdv:

Недавние исследования показали, что многие глубокие нейронные сети, используемые для компьютерного зрения, хрупки; вы можете состязательно изменить значения пикселей для любого изображения так, чтобы это изменение было незаметно для людей (норма разницы в значениях пикселей мала), однако классификатор ведет себя совершенно иначе на возмущенном изображении. В этой статье авторы представляют SemanticAdv, состязательный пример классификатора компьютерного зрения, созданный путем небольшого изменения исходного изображения семантически значимым образом. Здесь изменения не предназначены для того, чтобы быть незаметными, на самом деле общая норма изменения может быть высокой, однако человек должен иметь возможность легко описать семантическую разницу между двумя изображениями (например, изменился цвет / стиль волос или очки были добавлен).

Почему это исследование важно?

Хотя традиционные состязательные примеры выявили очень важные проблемы безопасности в существующих моделях машинного обучения, использование нормы Lp затрудняет понимание того, какие семантические изменения важны для классификатора. В этой статье, определяя противников с точки зрения семантических изменений, мы можем использовать эти примеры, чтобы определить, какие естественные атрибуты предметной области важны или не важны для классификатора. Они также делают атаки управляемыми, то есть мы можем решить, какие атрибуты мы хотим изменить при атаке классификатора, обеспечивая возможности для дальнейшего анализа и понимания поведения классификатора.

Основная причина важности такого рода состязательных примеров заключается в том, что они более или менее основаны на том же множестве данных, что и обучающие и тестовые изображения, что делает их естественными противниками (Zhao et al, ICLR 2018 И Hendrycks et al, ArXiv ). Это делает эти состязательные примеры гораздо более информативными и практичными в определенных ситуациях (например, если я добавлю челку и немного больше улыбаюсь, детектор лица меня не обнаружит), а также от них сложнее защититься (поскольку в идеале эти изображения выглядят точно так же, как другие изображения, которые классификатор видел или может увидеть).

Какое влияние эта работа может принести в поле?

Подходы к созданию таких семантических противников будут важны для ряда исследовательских сообществ. Что касается компьютерного зрения, это дает больше информации о недостатках существующих классификаторов, что может быть информативным при построении наборов данных или разработке моделей в будущем. Это также может быть полезно для интерпретируемости машинного обучения и объяснимого ИИ, поскольку семантические противники описывают то, что важно и не важно для классификатора для данного изображения, используя интуитивно понятные, значимые описания, которые поймут пользователи. Наконец, эти дополнительные атаки также ставят под сомнение надежность систем машинного обучения, и от них сложно защититься, поэтому сообщество специалистов по безопасности, вероятно, заинтересуется этой темой.

Я могу представить, что помимо исследований, это может быть полезным педагогическим инструментом для понимания проблем устойчивости в машинном обучении. Обычные состязательные атаки, генерирующие случайный шум, трудны для понимания, тогда как семантические противники обеспечивают интуитивные и часто забавные изменения исходных изображений.

Можете ли вы определить узкие места в исследовании?

В этом направлении есть несколько направлений будущей работы.

Статья критически полагается на StarGAN; он обеспечивает семантические модификации и генерирует изображения. Это вызывает беспокойство, потому что любой недостаток / недостаток модели StarGAN будет применяться и к SemanticAdv. Но что еще более важно, этот подход сложно применить к другому домену - скажем, ImageNet или даже MNIST - поскольку StarGAN может быть для них недоступен. Это сильно ограничивает потенциальное влияние этой работы: SemanticAdv полезны только для доменов, которые имеют точный StarGAN.

В настоящее время любое понимание, которое мы можем почерпнуть из семантического противника, применимо к одному изображению, то есть оптимизация в документе фиксирует наиболее важные семантические изменения для этого изображения. Однако одна из сильных сторон этих семантических противников состоит в том, что они интуитивно понятны и малоразмерны, и поэтому мы можем агрегировать их по более крупным коллекциям изображений, сохраняя при этом большую часть их интерпретируемости. Другими словами, исследование того, как будут выглядеть универсальные противники с семантическими изменениями, может привести к гораздо более полезному анализу поведения классификатора.

Можете ли вы предсказать возможные будущие события, связанные с этим исследованием?

Я предвижу формирование большого сообщества вокруг таких естественных и семантических противников, которые состоят из изменений, которые естественным образом появляются в наборах данных, то есть находятся в многообразии наборов данных. От них часто трудно защититься, что делает их интересными для сообщества специалистов по безопасности, но, что более важно, они могут быть полезны для понимания и интерпретации поведения классификаторов, что может привести к продвижению и развитию моделей, которые мы можем развернуть в реальных условиях. -мир с гораздо большей уверенностью.

Статья SemanticAdv: Генерация состязательных примеров с помощью атрибутно-условного редактирования изображений находится на arXiv.

О Проф. Самир Сингх

Доктор Самир Сингх - доцент кафедры компьютерных наук Калифорнийского университета в Ирвине (UCI). Он работает над надежностью и интерпретируемостью алгоритмов машинного обучения, а также над моделями, основанными на тексте и структуре для обработки естественного языка. Самир был научным сотрудником Вашингтонского университета и получил докторскую степень в Массачусетском университете в Амхерсте, во время которого он также работал в Microsoft Research, Google Research и Yahoo! Labs. Его группа получила финансирование от Allen Institute for AI, NSF, DARPA, Adobe Research и FICO. Его недавние статьи по смежным темам включают ICLR 2018, ACL 2018 и NAACL 2019 (подробнее см. Здесь).

Партнерская программа Synced Insight

Партнерская программа Synced Insight - это программа, доступная только по приглашениям, которая объединяет влиятельные организации, компании, академических экспертов и лидеров отрасли для обмена профессиональным опытом и идеями посредством собеседований, публичных выступлений и т. Д. Synced приглашает всех представителей отрасли к участию приглашаются эксперты, профессионалы, аналитики и другие лица, работающие в области технологий искусственного интеллекта и машинного обучения.

Просто Подайте заявку на участие в партнерской программе Synced Insight и расскажите нам о себе и о своем внимании к искусственному интеллекту. Мы ответим вам, как только ваша заявка будет одобрена.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.