Зачем нам нужна интерпретируемость модели?

Прежде чем мы перейдем к части вопроса «почему», давайте разберемся, что имеется в виду под «интерпретируемостью». Хотя математического определения интерпретируемости нет, эвристическое определение, подобное приведенному здесь: «Интерпретируемость - это степень, в которой человек может понять причину решения³», или здесь: «Интерпретируемость степень, в которой человек может последовательно предсказать результат модели⁴ »можно найти в литературе по машинному обучению. Чем выше интерпретируемость модели машинного обучения, тем легче кому-то понять, почему модель сделала определенный прогноз.

Теперь, когда мы определили интерпретируемость модели, давайте посмотрим, почему интерпретируемость важна для моделей машинного обучения.

  • Построение доверия: многие организации полагаются на модели машинного обучения при принятии важных решений: банк, использующий модель для предоставления или отказа в выдаче ссуды заявителю, больница, оценивающая риск заболевания у пациента, или компания, выпускающая кредитные карты, предсказывает, является ли транзакция мошеннической, - вот несколько примеров. Пользователи моделей машинного обучения больше доверяют прогнозам, если модель также может объяснить, почему она сделала прогноз.
  • Человеческое любопытство и обучение: у людей есть ментальная модель окружающей их среды, которая постоянно обновляется, находя объяснение происходящим вокруг них событиям. Модель машинного обучения «черный ящик» может озадачить пользователей, поскольку она мало поясняет сделанные прогнозы. С другой стороны, интерпретируемая модель машинного обучения может облегчить обучение и помочь пользователям развить лучшее понимание и интуицию в отношении проблемы прогнозирования.
  • Выявление предубеждений и крайних случаев. Рассмотрим пример модели машинного обучения, используемой для предоставления или отказа в выдаче ссуды в банке. Возможно, что модель может улавливать ошибки в обучающих данных и может дискриминировать определенные группы меньшинств. Интерпретируемость может помочь в обнаружении систематических ошибок во время разработки модели. Интерпретируемость также может помочь в выявлении крайних случаев, когда модель может дать сбой. Например, если будет обнаружено, что модель машинного обучения в беспилотных автомобилях использует два колеса велосипеда для обнаружения велосипедиста, это может побудить нас задуматься о том, как модель поведет себя, если увидит велосипед с боковыми сумками, где колеса могут быть нечетко видны.
  • Нормативные требования. Такие нормативные акты, как GDPR в Европе или Закон о равных возможностях кредитования в США, предоставляют людям право на получение объяснения решений, принимаемых с помощью модели машинного обучения, которая оказывает на них значительное влияние, особенно в юридическом или финансовом плане.

Что такое SHAP?

SHAP (Аддитивное объяснение Шэпли) - это теоретико-игровой подход для объяснения результатов любой модели машинного обучения. Цель SHAP - объяснить прогноз для любого экземпляра xᵢ как сумму вкладов от его индивидуальных значений характеристик. Предполагается, что отдельные значения характеристик относятся к совместной игре, выплата которой является предсказанием. В этом параметре значения Shapley предоставляют средства для справедливого распределения выплаты между значениями функций. Обратите внимание, что «значение признака» здесь относится к числовому или категориальному значению признака для экземпляра xᵢ. Мы объясним эту концепцию на простом примере ниже.

Что такое ценности Шепли?

Предположим, что A, B, C, D - четыре игрока с разными навыками в коалиционной игре (то есть A, B, C и D находятся в одной команде) с некоторой выплатой. Как наиболее справедливо разделить выплату между игроками? Один из способов ответить на этот вопрос - подумать, что игроки присоединились к группе в определенной последовательности (например: A ›B› C ›D), тогда мы можем вычислить предельный вклад каждого игрока как изменение в выплате в качестве игрока. присоединился к группе. Однако могут возникнуть эффекты взаимодействия, которые могут повлиять на расчет выплаты. Например, если A и B имеют разные наборы навыков, то общая выплата для группы, состоящей только из A и B, будет суммой следующих трех компонентов:

  • выплата только с помощью A,
  • выплата только с B,
  • дополнительная выплата за наличие как A, так и B.

Однако, если мы предположим, что B присоединился после A, то вышеупомянутый алгоритм полностью приписывает «дополнительную выплату за наличие обоих A и B» игроку B, что неверно. Мы обнаружили, что предельные взносы будут зависеть от последовательности, в которой мы предполагаем, что игроки присоединяются к группе. Shapley values ​​преодолевает этот недостаток, вычисляя средний предельный вклад каждого игрока по всем возможным последовательностям. Таким образом, если есть n игроков, то рассматриваются n-факториальные возможные последовательности. Здесь мы предполагаем, что выплаты могут быть рассчитаны для любого подмножества игроков.

В контексте модели машинного обучения значения отдельных характеристик экземпляра xᵢ - это игроки, а «прогноз yᵢ минус средний прогноз для всех данных обучения» - это выплата. Теоретически можно доказать, что значения Шепли - единственный метод атрибуции, который удовлетворяет следующим свойствам:

  1. Эффективность: вклад функций должен составлять разницу между предсказанием xᵢ и средним предсказанием.
  2. Симметрия: вклад двух значений характеристик j и k должен быть одинаковым, если они вносят равный вклад во все возможные коалиции.
  3. Dummy: функция j, которая не изменяет прогнозируемое значение - независимо от того, к какой коалиции значений функций она добавляется - должна иметь значение Шепли, равное 0.
  4. Аддитивность: для игры с комбинированными выплатами P₁ и P₂ соответствующие значения Шепли должны быть ϕ₁ᵢ + ϕ₂ᵢ.

Для модели с функциями прогнозирования f (x) и M мы можем получить значения Шепли как:

Вышеупомянутая формула представляет собой суммирование всех возможных подмножеств (S) значений признаков, за исключением i-го значения признака. Здесь | S |! представляет количество перестановок значений признаков, которые появляются перед i-м значением признака. Аналогично (| M | - | S | -1)! представляет количество перестановок значений признаков, которые появляются после i-го значения признака. Член различия в приведенном выше уравнении - это предельный вклад добавления i-го значения функции к S. Также обратите внимание, что приведенное выше уравнение требует, чтобы мы вычислили прогноз модели для любого подмножества функций, что может оказаться невозможным для модели машинного обучения.

SHAP от ценностей Шепли

Значения SHAP являются решениями вышеуказанного уравнения при предположениях: f (xₛ) = E [f (x | xₛ)]. т.е. прогноз для любого подмножества S значений признаков является ожидаемым значением прогноза для f (x) с учетом подмножества xₛ.

Точное вычисление значений SHAP является сложной вычислительной задачей. В документе SHAP² описываются два метода аппроксимации, не зависящие от модели, один из которых уже известен (значения выборки Шепли), а другой является новым и основан на LIME (Kernel SHAP). В документе SHAP также описывается несколько методов аппроксимации для конкретных типов моделей, таких как Linear SHAP, Tree SHAP, Deep SHAP и т. Д. Эти методы предполагают независимость характеристик и линейность модели для упрощения вычисления значений SHAP. Мы подробно рассмотрим некоторые из этих методов в следующих статьях.

Основные статьи SHAP:

  • Идентификация нового класса аддитивных мер важности признаков, объединившего шесть существующих методов.
  • Теоретические результаты, демонстрирующие, что для этого класса методов существует уникальное решение с желаемыми свойствами.
  • Новые методы вычисления значений важности функций с улучшенной вычислительной производительностью и большей согласованностью с человеческой интуицией.

Ссылка на другие статьи из этой серии:

SHAP Часть 2: Ядро SHAP

ФОРМА ЧАСТЬ 3: ФОРМА ДЕРЕВА

Ссылки:

  1. Интерпретируемое машинное обучение - Руководство по объяснению моделей черного ящика.
  2. SHAP: единый подход к интерпретации прогнозов модели. arXiv: 1705.07874
  3. Миллер, Тим. «Объяснение в искусственном интеллекте: выводы из социальных наук». arXiv Препринт arXiv: 1706.07269. (2017)
  4. Ким, Бин, Раджив Кханна и Олувасанми О. Койеджо. «Примеров мало, научись критиковать! Критика интерпретируемости ». Достижения в системах обработки нейронной информации (2016).
  5. Объяснимый искусственный интеллект для науки и медицины - исследования Microsoft
  6. Https://towardsdatascience.com/one-feature-attribution-method-to-supposely-rule-them-all-shapley-values-f3e04534983d