Авторы: Дэвид Бау, Болей Чжоу, Адитья Хосла, Од Олива, Антонио Торральба

Вклад в эту статью двоякий: во-первых, это разработка набора данных BRODEN (широкая и плотная маркировка) и механизма для количественной оценки интерпретируемости модели. Их метод применим только к сверточным фильтрам.

  1. Набор данных создается путем добавления ряда объектов, сцен, текстур и материалов из различных наборов данных.
  2. Вычисление оценки единицы интерпретируемости выполняется с помощью Intersection-over-Union (IoU). Во-первых, верхний уровень квантиля T для каждой активации на карте активации A получается с P(A>T) = 0,005. Затем карта активации низкого разрешения A масштабируется до S, чтобы ее можно было сравнить с аннотированным целевым изображением, содержащим аннотацию объекта для каждого пикселя. Бинарная сегментация M получается порогом S ≥ T. IoU(k,c) вычисляется для каждого объекта, как показано ниже, где Mk — сопоставление, полученное выше, а Lc — целевая аннотация для каждого объекта c.

Чтобы оценить, имеет ли смысл приписывать интерпретируемое понятие отдельной единице, в статье предлагаются две гипотезы.

Гипотеза 1. Интерпретируемые единицы возникают, потому что интерпретируемые понятия появляются в большинстве направлений в пространстве представления. Если репрезентация локализует связанные концепции независимым от оси способом, проецирование в любом направлении может выявить интерпретируемую концепцию, а интерпретации отдельных единиц в естественной основе могут не быть осмысленным способом понимания репрезентации.

Гипотеза 2. Интерпретируемые выравнивания необычны, и интерпретируемые единицы возникают, потому что обучение сходится к особой основе, которая выравнивает объясняющие факторы с отдельными единицами. В этой модели естественный базис представляет собой осмысленную декомпозицию, изученную сетью.

Рассмотрим 5-й сверточный слой f(x) в AlexNet размером 256. Вращение Q равномерным образом рисуется из SO(256) путем применения Грамма-Шмидта к нормально распределенному QR = A с прямоугольным треугольником R с положительной диагональю. авторы обнаружили, что если они выполняют Qf(x), количество уникальных детекторов (т.е. IoU) падает на 80%. Это свидетельствует о несоответствии с гипотезой 1.

Они также вносят незначительные возмущения в базисный вектор, вычисляя дробные степени Q^a, 0‹a‹1. Постепенно поворачивая пространство от I к Q (используя разложение Шура), они обнаружили, что IoU уменьшается. Примеры поворотов приведены ниже. Если вы хотите поиграть с ними еще, вы можете попробовать их здесь.

Несмотря на снижение непостижимости, дискриминационная способность нейронной сети по-прежнему остается инвариантной относительно вращения. Рассмотрим сеть g(f(x)), которую можно повернуть как g'(r) = g(transpose(Q) r). Повернутый ввод r = Q f (x) при прохождении через эту сеть приводит к g (транспонировать Q f (x) Q) = g (f (x)) так же, как и раньше, показывая неизменную дискриминационную способность.

Другое наблюдение из экспериментов на людях показало, что степень согласия людей по объектам была выше для характеристик, выводимых из более поздних слоев, чем для более ранних слоев в сетях. Это имеет смысл, поскольку нижние слои просто выбирают такие аспекты, как цвет и текстура, однако более поздние слои захватывают более абстрактные понятия, такие как объекты.

Вывод. В целом подход интересен, но ограничен только сверточными сетями.