Методика, объясняющая, как классификаторы машинного обучения черного ящика делают прогнозы

Излишне говорить, что машинное обучение - это мощное средство.

На самом базовом уровне алгоритмы машинного обучения можно использовать для классификации вещей. Имея коллекцию симпатичных изображений животных, классификатор может разделить изображения на группы «собака» и «не собака». Учитывая данные о предпочтениях клиентов в ресторанах, классификатор может предсказать, в какой ресторан посетит пользователь.

Однако роль человека в технологии не учитывается. Неважно, насколько мощной является модель машинного обучения, если ее не использовать. С таким небольшим объяснением или аргументацией относительно того, как эти алгоритмы делали свои прогнозы, если пользователи не доверяют модели или прогнозу , они не будут его использовать.

«Если пользователи не доверяют модели или прогнозу, они не будут их использовать».

По мере того, как машинное обучение становится все больше и больше, таких как медицинская диагностика и рецидивизм, решения, принимаемые этими моделями, могут иметь невероятные последствия. Таким образом, крайне важно понять и объяснить, как сбылись их прогнозы, что затем укрепит доверие.

В своей статье Почему я должен вам доверять? Объяснение предсказаний любого классификатора »Рибейро, Сингх и Гестрин представляют новую технику для этого: LIME (локальные интерпретируемые независимые от модели объяснения). В этом посте будут обобщены их выводы и представлена ​​информация о LIME.

Сводка в одну строку

LIME - это новый метод, который объясняет прогнозы любого классификатора машинного обучения и, как было показано, повышает доверие и понимание людей.

Объясняя предсказания

Почему полезно объяснять предсказания?

Давайте посмотрим на пример использования медицинской диагностики. Учитывая симптомы и параметры пациента, врач должен наилучшим образом определить диагноз пациента.

Люди (как врач, так и пациент) с большей готовностью принимают диагноз (доверяют ему), если у них больше предварительных знаний.

Модель может еще больше помочь врачу за счет большего объема данных и масштабируемости. Добавление объяснения к процессу, как на рисунке выше, поможет людям доверять машинному обучению и более эффективно его использовать.

Какие объяснения нужны?

1) Объяснение должно быть интерпретируемым.

Интерпретируемая модель обеспечивает качественное понимание между входами и выходом.

Интерпретируемость также должна учитывать ограничения пользователей и целевую аудиторию. Неразумно ожидать, что пользователь поймет, почему был сделан прогноз, если тысячи функций способствуют этому прогнозу.

2) Объяснение должно быть достоверным в местных условиях.

Верность определяет, насколько хорошо объяснение приближается к прогнозу модели. Высокая точность - это хорошо, низкая - бесполезна. Локальная точность означает, что объяснение должно хорошо приближаться к прогнозу модели для подмножества данных.

3) Объяснение должно быть независимым от модели.

Мы всегда должны относиться к исходной модели машинного обучения как к черному ящику. Это помогает уравнять неинтерпретируемые и интерпретируемые модели + добавляет гибкости для будущих классификаторов.

4) Объяснение должно обеспечивать глобальную перспективу.

Вместо того, чтобы объяснять только один прогноз, мы должны выбрать несколько объяснений для представления пользователям, чтобы они представляли всю модель.

Как работает LIME?

«Общая цель LIME состоит в том, чтобы идентифицировать интерпретируемую модель поверх интерпретируемого представления, которое локально соответствует классификатору».

LIME сводится к одной центральной идее: мы можем изучить локальное поведение модели, варьируя входные данные и наблюдая, как меняются выходы (прогнозы).

Это действительно полезно для интерпретируемости, потому что мы можем изменить ввод, чтобы он имел смысл для людей (слова, изображения и т. Д.), В то время как сама модель может использовать более сложные представления данных. Мы называем этот процесс изменения входа возмущением. Некоторые примеры возмущения включают добавление / удаление слов и скрытие части изображения.

Вместо того, чтобы пытаться аппроксимировать модель глобально, что является сложной задачей, проще аппроксимировать модель локально (близко к предсказанию, которое мы хотим объяснить). Мы можем сделать это, аппроксимируя модель интерпретируемой моделью, полученной из возмущений исходных данных, а выборки возмущенных данных взвешиваются в зависимости от того, насколько они похожи на исходные данные.

В документе были показаны примеры как с классификацией текста, так и с классификацией изображений. Вот пример классификации изображений:

Допустим, мы хотим объяснить модель классификации, которая предсказывает, есть ли на изображении лягушка. Учитывая исходное изображение (слева), мы разделяем фотографию на различные интерпретируемые элементы (справа).

Затем мы генерируем набор данных возмущенных выборок, скрывая некоторые из интерпретируемых элементов (части, окрашенные в серый цвет). Для каждого образца, как мы видим в средней таблице выше, мы вычисляем вероятность того, есть ли лягушка на изображении. Мы изучаем модель с локальным взвешиванием из этого набора данных (более важны возмущенные образцы, более похожие на исходное изображение).

Наконец, мы возвращаем части изображения с наибольшим весом в качестве объяснения.

Исследования пользователей с реальными людьми

Чтобы оценить эффективность LIME, было проведено несколько экспериментов (как с моделируемыми пользователями, так и с людьми) с учетом этих трех вопросов:

  1. Верны ли объяснения модели?
  2. Могут ли объяснения помочь пользователям повысить доверие к предсказаниям?
  3. Полезны ли объяснения для оценки модели в целом?

Верны ли объяснения модели?

Для каждого классификатора исследователи отметили золотой набор характеристик - наиболее важных характеристик. Затем они вычислили долю золотых элементов, извлеченных с помощью объяснений LIME. В смоделированных пользовательских экспериментах LIME неизменно обеспечивала ›90% отзывчивости всех наборов данных.

Могут ли объяснения помочь пользователям повысить доверие к предсказаниям?

Результаты смоделированных пользовательских экспериментов показали, что LIME превосходит другие методы объяснимости. С реальными людьми (пользователями Amazon Mechanical Turk) они продемонстрировали высокую степень согласия в выборе лучшего классификатора и его улучшении.

«Прежде чем наблюдать за объяснениями, более трети доверяли классификатору ... Однако после изучения объяснений почти все испытуемые определили правильное понимание с гораздо большей уверенностью в том, что оно было определяющим фактором».

Полезны ли объяснения для оценки модели в целом?

Судя по экспериментам, имитируемым как на пользователях, так и на людях, да, это действительно так. Пояснения полезны для моделей в текстовой и графической областях, особенно при принятии решения, какую модель лучше всего использовать, оценке доверия, улучшении ненадежных классификаторов и получении большего понимания предсказаний моделей.

Мои последние мысли

LIME представляет новый метод объяснения прогнозов классификаторов машинного обучения. Это, безусловно, необходимый шаг в достижении большей объяснимости и доверия к ИИ, но он не идеален - недавняя работа продемонстрировала недостатки LIME; например, эта статья от 2019 года показала, что состязательные атаки на LIME и SHAP (еще один метод интерпретируемости) могут успешно обмануть их системы. Я рад и дальше видеть больше исследований и улучшений LIME и других подобных методов интерпретируемости.

Для получения дополнительной информации ознакомьтесь с исходной статьей об arXiv здесь и их репозиторием с кодом здесь.

Марко Тулио Рибейро, Самир Сингх и Карлос Гестрин. «Почему я должен тебе доверять?» Объяснение прогнозов любого классификатора ». Конференция ACM по обнаружению знаний и интеллектуальному анализу данных (KDD), 2016 г.

Спасибо за чтение! Подпишитесь, чтобы узнать больше об исследованиях, ресурсах и проблемах, связанных с честным и этичным ИИ.





Кэтрин Йео - студентка CS в Гарварде, интересуется AI / ML / NLP, справедливостью и этикой и всем, что с этим связано. Не стесняйтесь предлагать идеи или поздороваться с ней в Твиттере.