ПОНИМАНИЕ МЕТОДОВ XAI

Методы XAI — интегрированные градиенты

Погрузитесь в метод интегрированных градиентов. Как рассчитываются значения? Каковы различные базовые уровни?

Что такое метод интегрированных градиентов?

Интегрированные градиенты (IG) [1] — это метод, предложенный Sundararajan et al. который основан на двух аксиомах: Чувствительность и Инвариантность реализации. Авторы утверждают, что этим двум аксиомам должны удовлетворять все методы атрибуции. Определение этих двух аксиом следующее:

Определение 1 (Аксиома: Чувствительность)Метод атрибуции удовлетворяет Чувствительности, если для всех входных и базовых данных, которые отличаются по одному признаку, но имеют разные прогнозы, тогда отличительному признаку должно быть присвоено ненулевое значение атрибута. Если функция, реализуемая глубокой сетью, не зависит (математически) от какой-либо переменной, то приписывание этой переменной всегда равно нулю.

Определение 2 (Аксиома: инвариантность реализации)Две сети функционально эквивалентны, если их выходные данные одинаковы для всех входных данных, несмотря на очень разные реализации. Методы атрибуции должны удовлетворять инвариантности реализации, т. е. атрибуции всегда идентичны для двух функционально эквивалентных сетей.

Аксиома чувствительности вводит базовый уровень, который является важной частью метода IG. Базовый уровень определяется как отсутствие признака во входных данных. Это определение сбивает с толку, особенно при работе со сложными моделями, но базовый уровень можно интерпретировать как «вход из входного пространства, который дает нейтральный прогноз». Базовую линию можно рассматривать как входные данные для создания контрфактического объяснения путем проверки поведения модели при переходе от базовой линии к исходному изображению.

Авторы приводят пример базовой линии для сети распознавания объектов, которая представляет собой черное изображение. Лично я считаю, что черное изображение не означает отсутствие функции, потому что это отсутствие должно определяться на основе многообразия, представляющего данные. Это означает, что черное изображение может работать как отсутствие функции в одной сети, но может не работать в сети, обученной на другом наборе данных, что позволяет сети использовать черные пиксели в прогнозировании.

Авторы утверждают, что методы на основе градиента нарушают чувствительность (по определению 1). В качестве примера представлен случай простой функции f(x) = 1 — \text{ReLU}(1 — x)f(x)= 1−ReLU(1−x) (см. Рис. 1), а базовая линия равна x = 0x=0. При попытке сгенерировать атрибуцию для x = 2x=2 выходные данные функции меняются с 0 на 1, но после x=1x=1 становятся плоскими и вызывают градиент равен нулю. Очевидно, что xx атрибутирует результат, но поскольку функция является плоской на входе, мы проверяем результаты с недопустимым атрибутированием и нарушаем чувствительность. Сундарараджан и др. думаю, что нарушение чувствительности приводит к тому, что градиенты фокусируются на нерелевантных функциях.

Как рассчитывается ИГ?

В определении IG у нас есть функция F, представляющая нашу модель, введите x∈R^n(x находится в R^n, потому что это общее определение IG, а не конкретное CNN), а базовый уровень x′∈R^n. Мы предполагаем прямой путь между x и x и вычисляем градиенты вдоль этого пути. Интегральный градиент по размеру i^t x h определяется как:

Исходное определение интегрированных градиентов не поддается вычислению (из-за интеграла). Поэтому реализация метода использует приближенное значение, заменяя интеграл суммой:

В приближенном расчете (уравнение 2) m определяет количество шагов интерполяции. В качестве примера можно представить интерполяции с m равным пяти (см. Рис. 2). На практике количество шагов интерполяции обычно составляет от 20 до 300, а значение моды равно 50. Результаты применения ИГ можно увидеть на Рисунке 3.

Базовые показатели

В последние годы велась дискуссия о замене базовой линии постоянного цвета альтернативой. Одним из первых предложений было добавить к исходному изображению гауссов шум (см. Рис. 4а).

Гауссовский базовый уровень был введен Смилковым и соавт. [2] и использовал распределение Гаусса с центром на текущем изображении с дисперсией σ. Эта дисперсия является единственным параметром при настройке метода.

Другая базовая линия называется Blur baseline и использует многомерный фильтр Гаусса (см. Рис. 4b). Идея, представленная Фонгом и Ведальди [3] размытой версии изображения, представляет собой специфичный для предметной области способ представления недостающей информации и, следовательно, является допустимой базовой линией в соответствии с исходным определением.

Вдохновленные работами Фонга и Ведальди, Sturmfels et al. [4] представил другую версию базовой линии, основанную на исходном изображении. Эта базовая линия называется базовой линией максимального расстояния и создает базовую линию путем создания изображения с наибольшим значением расстояния L1 от исходного изображения. Результат этого можно увидеть на Рисунке 4c. Проблема с максимальным расстоянием заключается в том, что оно не отражает отсутствие признаков. Он содержит информацию об исходном изображении, только в другой форме.

В той же работе Sturmfels et al. создал еще один базовый план под названием Uniform baseline. На этот раз базовая линия не требует входного изображения и использует только равномерное распределение для создания базовой линии (см. Рис. 4d). Проблема с выбором базовой линии не решена, и для дальнейших экспериментов будет использоваться базовая линия черное изображение.

дальнейшее чтение

Я решил создать серию статей, объясняющих наиболее важные методы XAI, используемые в настоящее время на практике. Вот основная статья: Методы XAI — введение

Использованная литература:

  1. М. Сундарараджан, А. Тали, К. Ян. Аксиоматическая атрибуция для глубоких сетей. Международная конференция по машинному обучению, страницы 3319–3328. ПМЛР, 2017.
  2. Д. Смилков, Н. Торат, Б. Ким, Ф. Вьегас, М. Ваттенберг. Smoothgrad: удаление шума путем добавления шума. Препринт arXiv arXiv: 1706.03825, 2017.
  3. Р. К. Фонг, А. Ведальди. Интерпретируемые объяснения черных ящиков осмысленным возмущением. Материалы Международной конференции IEEE по компьютерному зрению, страницы 3429–3437, 2017 г.
  4. П. Штурмфельс, С. Лундберг, С.-И. Ли. Визуализация влияния базовых показателей атрибуции признаков. Перегонка, 5(1):e22, 2020.
  5. А. Хосла, Н. Джаядевапракаш, Б. Яо, Л. Фей-Фей. Набор данных Стэнфордских собак. https://www.kaggle.com/jessicali9530/stanford-dogs-dataset, 2019 г. Дата обращения: 01.10.2021.

Первоначально опубликовано на https://erdem.pl.