Интерпретация состязательных атак при ответе на вопрос с помощью UKP-SQuARE

В этом сообщении блога мы увидим, как проводить и интерпретировать состязательные атаки на модели ответов на вопросы с использованием UKP-SQuARE. Как описано в нашем предыдущем посте, состязательные атаки немного изменяют входные данные, такие как вопрос или отрывок из контекста, чтобы обмануть модель, заставив ее дать неправильный ответ на вопрос.

С помощью UKP-SQuARE мы можем выполнять состязательные атаки на модели QA. В частности, можно проводить известные Input Reduction и HotFlip, а также Top-K и Sub-span.

Для начала нужно зайти на https://square.ukp-lab.de/qa, выбрать любую модель и задать вопрос. Затем вы увидите нижнюю часть Методы атаки под прогнозируемыми ответами.

В приведенном ниже примере мы выбрали Уменьшение ввода и удалили 5 слов из вопроса. В результате возникает вопрос: «появилась ли Мария якобы в Лурде, Франция?». Этот новый вопрос существенно отличается от исходного, хотя лексически похож. Это отличается, потому что вопрос теперь является вопросом да/нет. Однако модель по-прежнему возвращает «Святая Бернадетта Субиру» в качестве ответа с добавлением года.

В приведенном ниже примере мы видим атаку с использованием «sub-span». Этот метод идентифицирует поддиапазон контекста длины 4, который объясняет ответ. Это уступает место подпромежутку «Святой Бернадетте Субиру», что может объяснить ответ. Однако, когда мы используем только этот поддиапазон в качестве контекста, нам не хватает информации для ответа на вопрос. Этот новый контекст в основном является именованной сущностью, но мы ничего о ней не знаем, и, в частности, мы не знаем, являлась ли эта сущность Деве Марии в 1858 году в Лурде, Франция. Таким образом, комментатор-человек сказал бы, что для ответа на вопрос недостаточно информации. Однако модель по-прежнему возвращает тот же ответ, который предполагает, что модель уже знает, даже без контекста, что святая Бернадетта Субиру явилась Деве Марии.

Наконец, мы показываем атаку Top K, где K = 12, используя «внимание» в качестве метода выделения. В этом случае наиболее важными словами для этого метода значимости являются «возвышенная базилика venite omnes Святая Бернадетта Субиру — статуя Марии». Используя это как контекст, модель возвращает «Святая Бернадетта Субиру» в качестве ответа. . Однако ясно, что этот контекст неполный и даже запутанный. Тем не менее, модель по-прежнему возвращает исходный ответ. Это подтверждает нашу предыдущую гипотезу: модель могла знать о святой Бернадетт Субиру на этапах предварительной подготовки или тонкой настройки.

Состязательные атаки могут показать нам уязвимости моделей. Они могут показать, что некоторые модели правильно отвечают, используя ярлыки вместо правильного понимания вопроса и контекста. Это может быть полезно для понимания и улучшения моделей. Более подробная информация представлена в нашей статье:

UKP-SQuARE v2: Объяснимость и состязательные атаки для надежного контроля качества
Рахнит Сачдева, Хариц Пуэрто, Тим Баумгертнер, Севин Таривердян, Хао Чжан, Кексин Ван, Хоссейн Шейх Саади…aclanthology.org

Интерпретация состязательных атак при ответе на вопрос с помощью UKP-SQuARE

Вопросы по теме