Что «объяснимого» в объяснимом ИИ (XAI)?

И почему даже модели регрессии не «объяснимы»

Объясняемый AI, объяснимый ML и интерпретируемый ML стали популярными терминами во многих дискуссиях, посвященных юридической и этической науке о данных. Обычно они вызываются в контексте алгоритмов прогнозирования «черного ящика».

Многие специалисты по данным различают алгоритмы, которые можно интерпретировать / объяснить (примерный дочерний элемент является моделями статистической регрессии), и алгоритмы, которые не поддаются интерпретации / объяснению (например, глубокое обучение). Различие фокусируется на способности понять, как модель связывает предикторы с результатом. Были предприняты попытки создать объяснимые алгоритмы с помощью объяснимых методов поверх алгоритмов черного ящика: построение графика зависимости результата от каждого из значений предиктора для набора данных удержания (таких как графики индивидуальных условных ожиданий и графики частичной зависимости). Значения Шепли объясняют для оцененной записи влияние различных значений предикторов на прогноз, а LIME соответствует локальным линейным моделям, которые позволяют прогнозировать приблизительно так же, как алгоритм черного ящика, чтобы выделить роль, которую играет каждая функция (например, пиксель, слово). в прогнозируемом счете. Другие попытки объяснить предсказания используют контрфактические подходы (что, если), чтобы увидеть, что произойдет с предсказанием при изменении входных данных.

Все это создает путаницу в отношении того, что означает «объяснимость». Кому объяснить?

Объяснимый означает совершенно разные вещи для специалиста по обработке данных, создающего модель, для организации / бизнеса, развертывающего ее для оценки множества людей, и для оцениваемого человека. Эти организации различаются по своим знаниям и ставкам.

Почему модели линейной регрессии считаются более интерпретируемыми, чем нейронные сети? Поскольку специалист по данным может видеть (и сообщать) коэффициенты регрессии, и вместе с уравнением регрессии мы можем «понять», как связаны предикторы и результат. Но что эти коэффициенты на самом деле объясняют? Вот три «объяснения»:

Коэффициенты «объясняют», какая информация входит в прогноз (включенные предикторы), а какая - нет (исключенные предикторы). Например, я могу увидеть, что пол включен (или исключен).
Прогнозируемое значение - это средневзвешенное значение входных значений предсказателя. Коэффициенты сообщают нам веса каждого предиктора, поэтому они «объясняют», насколько важен каждый предиктор по сравнению с другими, используемыми в модели (например, доход в 5 раз важнее возраста).
Коэффициенты «объясняют» влияние увеличения каждого предиктора на среднюю конечную переменную (при сохранении фиксированных значений других предикторов).

Эти 3 «объяснения» не являются тем, что неспециалист назвал бы объяснением. Когда соискателю кредита отказывают, он хочет знать, почему ему отказали. Не как алгоритм сгенерировал прогнозируемую оценку.

Давайте рассмотрим очень упрощенный пример. Предположим, что скоринговая модель для решений о ссуде использует следующую оценочную модель регрессии:

Loan_Eligibility_Score = 10,52 + 20 * ДОХОД + 2 * ВОЗРАСТ + 20 * CREDIT_SCORE

где ДОХОД - это ежемесячный доход (в тысячах долларов), ВОЗРАСТ (в годах), а CREDIT_SCORE - это оценка FICO® (от 300 до 850).

Объяснение 1. Ваша оценка права на получение кредита зависит только от вашего дохода, возраста и кредитного рейтинга. Он не использует ваш пол, расу или почтовый индекс.

Объяснение 2: Доход и кредитный рейтинг одинаково важны, и они имеют в 10 раз большее значение, чем ваш возраст.

Объяснение 3: увеличение вашего кредитного рейтинга на 10 единиц увеличит ваш рейтинг права на получение кредита на 20 * 10 = 200 единиц.

Но каждое из этих объяснений ошибочно!

Хотя в эту модель включены только 3 предиктора, на эти предикторы влияют многие другие. Кредитный рейтинг и доход, как известно, зависят от пола и расы. Следовательно, исключенные предикторы не означают, что такая информация не содержится в модели оценки косвенно.
Утверждения об относительном весе предикторов значимы для людей, если эти предикторы имеют значимые единицы или если все они имеют одинаковые шкалы (например, бинарные предикторы). Тем не менее, прогностическая информация часто преобразуется в производные переменные для улучшения предсказательной способности (например, нормализованные оценки, логарифмические преобразования или группировка по категориям). Если приведенная выше формула регрессии основана, например, на нормализованных оценках, то веса не имеют смысла для пользователя (если вы не предоставите им средства обучения и стандартные отклонения и не научите их z-значениям).
Интерпретация среднего увеличения («увеличение дохода на единицу связано с повышением в среднем на 20 единиц оценки правомочности, все остальное остается неизменным») бесполезно для отдельного прогнозируемого пользователя. Такие советы, как «попытайтесь повысить свой кредитный рейтинг» или «дождитесь следующего повышения зарплаты», неверны, если модель не обновлена к тому моменту, когда человек сможет внести изменения, тем самым создавая фиксированное решение, основанное на правилах. Однако на практике алгоритмы регулярно переобучаются на новых данных. Даже если коэффициенты искусственно оставлены на фиксированном уровне, кредитный институт может изменить порог принятия решения, чтобы определить, достаточно ли высокий балл правомочности.

Но как насчет вопроса «почему коэффициент дохода равен 20?» Насколько объяснимо / интерпретируемо объяснение «потому что оно минимизировало ошибку наименьших квадратов» или «потому что эта модель имела лучший AIC / подъем / AUC»?

Итак, что мы узнали? Эта даже самая интерпретируемая модель регрессии не может действительно предоставить объяснение, подходящее для человека, которому проводится оценка. Специалист по анализу данных может подумать, что он может объяснить, почему модель дает определенный прогноз, но на самом деле они просто описывают , как модель производит прогноз.

Что «объяснимого» в объяснимом ИИ (XAI)?

И почему даже модели регрессии не «объяснимы»

Вопросы по теме