Поскольку глубокие нейронные сети (DNN) в настоящее время все чаще используются в реальных приложениях, их уязвимость к атакам со стороны злоумышленников вызвала обеспокоенность у специалистов по машинному обучению, особенно в случае областей, чувствительных к безопасности, таких как автономное вождение.

Атаки на основе передачи представляют собой подход к атаке методом «черного ящика», который предлагает большую практичность и гибкость по сравнению с другими методами атак и, таким образом, стал основным исследовательским интересом в этой области. Однако состязательные примеры, созданные такими традиционными методами атаки, часто демонстрируют слабую переносимость, поскольку они имеют тенденцию без разбора искажать функции, чтобы снизить точность прогноза в исходной модели, без какого-либо понимания важных внутренних характеристик объектов, которые они искажают.

Чтобы решить эту проблему, в новой статье исследователей из Чжэцзянского университета, Уханьского университета и Adobe Research предлагаются атаки с учетом важности функций (FIA), которые значительно улучшают переносимость вредоносных примеров, превосходя современные современные методы переносимых атак.

Исследователи резюмируют свой основной вклад следующим образом:

  1. Мы предлагаем атаки с учетом важности функций (FIA), которые улучшают переносимость состязательных примеров, нарушая критически важные функции с учетом объекта, которые доминируют в принятии решений различными моделями.
  2. Мы анализируем обоснование относительно низкой переносимости существующих работ, т. е. переоснащения для конкретных «зашумленных» признаков модели, против которых мы вводим совокупный градиент, чтобы направлять генерацию более переносимых состязательных примеров.
  3. Обширные эксперименты с различными моделями классификации демонстрируют превосходную переносимость состязательных примеров, созданных предложенным FIA, по сравнению с современными переносимыми методами атаки.

Большинство классификаторов на основе DNN извлекают семантические признаки для эффективного повышения точности классификации, поскольку эти семантические признаки различают объекты. Таким образом, если состязательные примеры могут разрушить объектно-ориентированные функции, которые доминируют в решениях всех моделей, переносимость будет улучшена. Текущие модели DNN также извлекают эксклюзивные функции, чтобы лучше соответствовать предметной области, и, не зная об этих эксклюзивных функциях, существующие методы состязательной атаки имеют тенденцию создавать состязательные примеры, без разбора искажая функции по сравнению с исходной моделью, что приводит к локальным оптимумам для конкретной модели, которые значительно ухудшают переносимость.

Таким образом, избегание этих локальных оптимумов является ключом к улучшению переносимости. Руководствуясь этой предпосылкой, предложенный FIA получает важность признаков путем введения совокупного градиента, который усредняет градиенты по отношению к картам признаков исходной модели, что позволяет ему эффективно избегать локальных оптимумов, представляя переносимую важность признаков.

В документе подчеркивается преимущество осведомленности о важности функций по сравнению с традиционными атаками на основе связанных функций. От целевых функций связанные методы атаки на основе признаков просто оптимизируют искажение признаков между исходными изображениями и враждебными изображениями без каких-либо ограничений. Метод FIA отличается в этом отношении тем, что обеспечивает внутреннюю важность признаков через его совокупный градиент, что позволяет ему достичь лучшей переносимости в его состязательных примерах.

Чтобы оценить эффективность предложенного FIA, команда сравнила его с современными методами атак, такими как MIM, DIM, TIM, PIM, FDA и т. д. Эксперименты проводились с набором данных, совместимым с ImageNet, и процент успешных атак сообщалось о различных методах нападения.

По сравнению с современными переносными атаками, FIA улучшила показатель успеха на 8,4% в обычно обученных моделях и на 11,7% в моделях специальной защиты.

Результаты демонстрируют превосходную переносимость состязательных примеров, созданных предложенным FIA, которые, как надеется команда, могут служить эталоном для оценки надежности различных моделей.

Код FIA будет опубликован на проекте GitHub. Статья Переносимые состязательные атаки с учетом важности функций размещена на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.