TCAV: интерпретируемость за пределами атрибуции функций

Обзор методики интерпретируемости моделей GoogleAI с точки зрения понятных человеку концепций.

Недостаточно знать, работает ли модель, нам нужно знать, как она работает: Сундар Пичаи

Сегодня акцент постепенно смещается к интерпретируемости модели, а не только к ее предсказаниям. Однако настоящая суть интерпретируемости должна заключаться в том, чтобы сделать модели машинного обучения более понятными для людей, особенно для тех, кто мало разбирается в машинном обучении. Машинное обучение - мощный инструмент, и с такой силой приходит ответственность за то, чтобы такие ценности, как справедливость, хорошо отражались в моделях. Также важно убедиться, что модели искусственного интеллекта не усиливают предвзятость, существующую в реальном мире. Чтобы решить такие проблемы, исследователи искусственного интеллекта Google работают над решением под названием TCAV (тестирование с использованием векторов активации концепций), чтобы понять, какие сигналы модели нейронных сетей используют для прогнозирования.

Задача

В своем программном выступлении на Google I / O 2019 Сундар Пичаи рассказал о том, как они пытаются создать более полезный Google для всех, включая создание ИИ для всех. Он повторил, что предвзятость в машинном обучении вызывает беспокойство, и ставки даже высоки, когда дело касается ИИ. Чтобы сделать ИИ более ответственным и прозрачным, он обсудил методологию TCAV, и в этой статье я хотел бы сделать обзор того же самого и того, как он намеревается решить проблему предвзятости и справедливости. В статье будет мало математических выкладок, поэтому, если вы хотите получить более подробное представление, вы можете прочитать оригинальную исследовательскую статью или посетить Репозиторий Github TCAV.

Необходима другая техника интерпретации

В сфере машинного обучения существует три основных метода интерпретации:

В большинстве случаев вам дается модель, созданная годами инженерии и опыта, и вы не можете изменить ее архитектуру или переобучить. Так как же интерпретировать модель, о которой вы понятия не имеете? TCAV - это метод, предназначенный для обработки таких сценариев.

Большинство моделей машинного обучения предназначены для работы с низкоуровневыми функциями, такими как края и линии на изображении или, скажем, цвет одного пикселя. Это сильно отличается от высокоуровневых концепций, более знакомых людям, таких как полосы на зебре. Например, если у вас есть изображение, каждый пиксель этого изображения является входной функцией. Хотя можно посмотреть на каждый пиксель и вывести его числовые значения, они не имеют смысла для людей. Мы не будем говорить, что 5-й пиксель этого изображения имеет значение 28; как люди, мы всегда говорим, что на картинке изображена голубая река. TCAV пытается решить эту проблему.

Кроме того, типичные методы интерпретируемости требуют, чтобы у вас было одно конкретное изображение, которое вам интересно понять. TCAV объясняет, что это обычно верно для класса интересов за пределами одного изображения (глобальное объяснение).

Подход TCAV

Допустим, у нас есть модель, которая обучена обнаруживать зебры по изображениям. Мы хотели бы знать, какие переменные сыграли роль в принятии решения о том, было ли изображение зеброй или нет. TCAV может помочь нам понять, была ли концепция полос важна для предсказания модели, что на самом деле да.

Аналогичным образом рассмотрим классификатор, обученный на изображениях врачей. Если бы данные обучения состояли в основном из мужчин в белых халатах и стетоскопов, модель предполагала бы, что мужчина в белом халате был важным фактором для того, чтобы стать врачом. Как это нам поможет? Это выявило бы предвзятость в обучающих данных, которые содержат меньше изображений женщин, и мы могли бы легко это исправить.

Так что же такое TCAV?

Тестирование с использованием концептуальных векторов активации (TCAV) - это новая инициатива по интерпретируемости от команды Google AI. Векторы активации концепций (CAV) обеспечивают интерпретацию внутреннего состояния нейронной сети с точки зрения понятных человеку концепций. TCAV использует производные по направлениям для количественной оценки степени, в которой определяемая пользователем идея жизненно важна для результата классификации - например, насколько чувствительно предсказание «зебры» к наличию полос.

Команда, созданная Бином Кимом и Мартином Ваттенбергами, Джастином Гилмером, Кэрри Кай, Джеймсом Векслером, Фернандой Виегас и Рори Сейрес, стремится сделать людей, наделенных машинным обучением, подавленными им. Вот что Бин думает об интерпретируемости.

Работающий

TCAV по сути изучает «концепции» на примерах. Например, TCAV нужна пара примеров «женский» и «не женский», чтобы изучить понятие «гендер». Цель TCAV - определить, насколько концепция (например, пол, раса) была необходима для предсказания в обученной модели, даже если концепция не была частью обучения.

Продолжая работу с «классификатором зебры», учтите, что нейронная сеть состоит из входов x ∈ R ^ n и слоя прямой связи l с нейронами m, так что входной вывод и его Активации слоя l можно рассматривать как функцию:

Определение концепции интереса

Для заданного набора примеров, которые представляют это понятие (например, полосы) (a) или независимого набора данных с понятием, помеченным (b), и обученной сети ( c), TCAV может количественно оценить чувствительность модели к концепции для этого класса.

Поиск векторов активации концепта (CAV)

Нам нужно найти вектор в пространстве активаций слоя l, который представляет это понятие. CAV изучаются путем обучения линейного классификатора, чтобы различать активации, произведенные примерами концепции и примерами на любом уровне (d). Затем мы определяем «вектор активации концепции» (или CAV) как нормаль к гиперплоскости, разделяющей примеры без концепции и примеры с концепцией в активациях модели.

Расчет направленных производных

Для интересующего класса (зебры) TCAV использует производную по направлению SC, k, l (x) для количественной оценки концептуальной чувствительности (e). Этот SC, k, l (x) может количественно измерить чувствительность прогнозов модели в отношении концепций на любом уровне модели.

Вот пошаговое руководство по использованию TCAV в рабочем процессе:

TensorFlow / tcav
Участвуйте в разработке TensorFlow / tcav, создав учетную запись на GitHub. github.com

Мнения и предубеждения

TCAV использовался в двух широко используемых моделях прогнозирования изображений, то есть InceptionV3 и GoogleNet.

Хотя результаты показывают важность концепции красного цвета для пожарных машин, некоторые результаты также подтвердили неотъемлемую предвзятость моделей в отношении пола и расы, несмотря на то, что они не были специально обучены этим категориям. Например:

мячи для пинг-понга и мячи для регби тесно связаны с конкретной гонкой
Концепция оружия была более важной для предсказания класса гантелей, чем другие концепции.

Заключение

TCAV - это шаг к созданию удобной для человека линейной интерпретации внутреннего состояния модели глубокого обучения, чтобы на вопросы о решениях модели можно было ответить в терминах естественных высокоуровневых концепций.