Описание распространенных атак на время со стороны соперников и способов борьбы с ними

Это вторая часть моей серии о состязательном машинном обучении. Для мягкого введения в состязательное машинное обучение вы можете обратиться к Часть 1.

Введение

Как упоминалось в предыдущем блоге, атаки на время принятия решения - это атаки, в которых злоумышленник атакует изученные модели или решения, принятые с помощью изученных моделей, и либо изменяет способ их функционирования, либо вносит изменения в наблюдаемую среду, так что модель дает ошибочные результаты. . Самый важный тип атаки на время принятия решения - это атака с уклонением.

Атаки уклонения от моделей машинного обучения

Изученная модель используется для обнаружения вредоносной активности, такой как вторжение или вредоносный объект, и злоумышленник стремится изменить вид атаки, чтобы остаться незамеченным.

Примеры:
a) Атака полиморфным смешиванием для обхода детекторов вторжений на основе аномалий:

Система обнаружения вторжений на основе аномалий - это система, которая может обнаруживать сообщения, содержащие разные сигнатуры в разные промежутки времени, из-за чего она не может избежать полиморфной атаки, когда подозрительное сообщение имеет разную длину [1]. Таким образом, злоумышленник использует технику полиморфного смешивания, при которой подозрительное сообщение имеет только одну подпись. Сообщение передается по сети в виде последовательности байтов в виде вектора признаков с определенной частотой
.

Чтобы передать вредоносный объект по сети, чтобы избежать обнаружения, сначала создается вектор атаки, в котором подозрительный код находится в зашифрованном формате, а другая часть вектора содержит код для полиморфного дешифрования. Предполагая, что злоумышленник знает
количество байтов, передаваемых по сети, он настраивает вектор атаки на эту длину, которая затем не будет обнаружена детекторами аномальных вторжений.

б) Атака уклонения от классификатора PDFRate:

Классификатор PDFRate - это модель, которая была обучена с использованием алгоритма случайного леса для определения около 202 функций метаданных PDF (размер файла, имя автора и дата создания) и атрибутов содержимого (которые могут быть извлечены из тестового файла PDF с помощью регулярных выражений) чтобы определить, является ли данный PDF-файл безобидным или вредоносным [2]. Файлы PDF содержат заголовок, текст, таблицу перекрестных ссылок и трейлер. Злоумышленник вставляет некоторые из наиболее важных функций этой модели во вредоносный PDF-файл вместе с подозрительным кодом, чтобы избежать уклонения. Причина, по которой злоумышленник может избежать уклонения, заключается в том, что эти важные особенности модели, которую внедрил злоумышленник, заставляют PDFRate давать меньше ложных срабатываний, таким образом предсказывая вредоносный документ PDF как безопасный.

Эти атаки могут быть далее разделены на атаки по времени принятия решения по «белому ящику» и «черный ящик».

Итак, как злоумышленник моделирует атаки белого ящика?

Атаки «белого ящика» на основе решений можно моделировать несколькими способами в зависимости от типа используемой модели машинного обучения, т. Е. Двоичного классификатора, многоклассового классификатора, кластеризации и т. Д. Давайте рассмотрим пример атаки «белого ящика» на двоичный классификатор [3].

Атака "белого ящика" на двоичный классификатор

Одна из основных целей злоумышленника - минимизировать затраты на преобразование вектора признаков в вектор признаков атаки. Пусть xa будет идеальным вектором характеристик атаки, что означает, что xa - это вектор атаки, который без каких-либо изменений классифицируется как безопасный. x - это вектор признаков, который злоумышленник пытается создать, чтобы успешно уклониться. c (x, xa) - стоимость преобразования xa в x.

Чтобы минимизировать функцию стоимости, формула, основанная на расстоянии, рассматривается следующим образом:

c (x, xa) = Σj αj | xj - xaj |

Здесь αj - вес, обозначающий сложность изменения признака j. Таким образом, противник заменяет некоторые функции вектора признаков xaj аналогичными функциями xj, чтобы получить минимальные затраты.

Атака черного ящика

Атака «белого ящика» предполагает, что злоумышленник имеет всю информацию, касающуюся обучающего набора, набора тестов, используемого алгоритма, изученных параметров, но в действительности это может быть не так, что приводит к так называемой атаке «черного ящика» [4].

При атаке черного ящика противник не знает полного набора данных и обученной модели. Таким образом, злоумышленник пытается создать суррогатный набор данных, означающий аналогичный набор данных, отправляя запросы исходной модели. По полученному ему ответу он понимает присутствующие ярлыки классов и, следовательно, пытается создать аналогичную модель f(x), чтобы изучить параметры и поведение исходной модели. Теперь злоумышленник получает информацию о большинстве, поэтому он может послать свои враждебные данные, чтобы уклониться от атаки. По сути, это превращается в атаку белого ящика.

Например, рассмотрим случай атаки на рассылку спама по электронной почте. Злоумышленник может создать поддельную учетную запись электронной почты и отправлять запросы на сервер, чтобы получить ответы, которые он может проанализировать, чтобы понять различные типы меток. Затем он может создать суррогатную модель, чтобы понять поведение модели, например, ее параметры, а затем, наконец, атаковать реальный классификатор.

Защита от атак на время на решение

Ниже приведены основные подходы к защите от атак на время принятия решения. Поскольку большинство атак направлено на контролируемое обучение, обсуждаемые здесь методы относятся только к этим моделям обучения.

1. Укрепление моделей обучения с учителем

2. Переподготовка

3. Регуляризация

Укрепление моделей обучения с учителем

Этот подход включает поиск порога, который будет оптимальным для правильной классификации неизвестного элемента входных данных, а также увеличит стоимость атаки для злоумышленника [5]. Учащийся анализирует различные тенденции предыдущих атак, а также то, как модель будет реагировать на различные вредоносные входные данные, а затем пытается найти оптимальный порог, который не повлияет на получение правильных результатов, а также увеличит стоимость атаки для противника, чтобы противник это сделал. не вызывать приступ.

Например, на рисунке ниже предполагается, что злоумышленник может позволить себе изменение стоимости не более q единиц. Если порог равен 0,5, противник может легко изменить входной вектор признаков и уклониться от атаки. Но если при изменении порога на 0,25 стоимость, понесенная противником, превышает q единиц, то высока вероятность того, что он может не подумать о нападении.

Преимущество в том, что нужно менять только порог. Никакой переподготовки нет.

Ограничения этого подхода:

1. Трудно всегда найти оптимальный порог из-за компромисса между предсказанием правильного результата и увеличением стоимости атаки для противника.

2. Масштабируемость

Переподготовка

Этот подход включает повторное обучение исходной модели на вредоносных примерах, чтобы сделать ее более устойчивой [6].

Ниже приведены шаги этого подхода:

  1. Начальная модель обучена.
  2. Вредоносные примеры выявляются в зависимости от серьезного анализа модели.
  3. Эти вредоносные примеры затем добавляются в модель в качестве входных данных.
  4. Затем модель переобучается.
  5. Результат - надежная изученная модель

Преимущество в том, что она масштабируема, а ограничение заключается в стоимости переобучения модели.

Регуляризация

В этом методе те особенности, которые не считались очень важными при обучении, также учитываются, но в небольшом количестве с помощью параметра регуляризации λ, который затем добавляется к функции стоимости, которая должна быть минимизирована при обучении модели. Это полезно для модели двумя способами:

1. Предотвращает переоснащение.

2. Увеличивает количество характеристик для противника, поэтому ему приходится вносить множество изменений в вектор атаки, тем самым увеличивая его стоимость атаки.

Преимущество состоит в том, что не требуется переобучения какой-либо модели, а недостатком является поиск лучшего значения для параметра регуляризации.

Надеюсь, вы получили представление о различных состязательных атаках, основанных на времени принятия решения, о способах борьбы с ними, а также об их преимуществах и недостатках.

Следите за обновлениями части 3!

Ссылки:

[1] Прахлад Фогла - Выборочные средства уклонения от идентификаторов систем обнаружения вторжений на основе сигнатур)

Https://dl.acm.org/citation.cfm, 2006 г.

[2] Недим Срнди и Павел Ласков - Практическое уклонение от классификатора, основанного на обучении: пример из практики

[3] И. Гудфеллоу - Объяснение и использование примеров противоборства

Https://arxiv.org/abs/1412.6572, 2015 г.

[4] Баттиста Бигго - Учебное пособие по состязательному машинному обучению.

Https://pralab.diee.unica.it/ru/AdversarialMachineLearning,2017

[5] Бо Ли Лян Тонг и Чен Хаджадж - Защита классиков от уклонения: хорошее, плохое и уродливое.

Https://www.groundai.com/project/harpting-classifiers-against-evasion-the-good-the-bad-and-the-ugly/, 2017.

[6] Малеки Дэвид - переподготовка классификаторов к состязательному машинному обучению

Https://people.eecs.berkeley.edu/~liuchang/paper/aisec17.pdf, 2017 г.