Расскажи мне историю: мысли об интерпретируемости модели

В последнее время мои мысли вращались вокруг того, что кажется одним из самых больших мета-разговоров по машинному обучению: потенциал и ограничения обучения в целом умного актера, нюансы и подлинная нормативная проблема алгоритмической справедливости, а теперь, что это значит для моделей быть интерпретируемыми и понятными для людей.

По мере того как рынок идей наводнился когда-либо - более - сложными архитектурами, казалось бы, балансирующими под тяжестью всех этих уровней, хор голосов, призывающих к интерпретируемому машинному обучению, стал еще больше. NIPS проводил семинар по этой теме в течение последних двух лет, DARPA финансирует проект Explainable AI, и множество стран, работающих в Европе, изо всех сил пытаются выполнить новое требование ЕС о том, что любое важное решение, принятое моделью, должно быть объяснил пользователю.

Я считаю, что эти аргументы обычно делятся на три большие категории.

Боязнь стабильности модели и желание проверить, нет ли хрупких или неправильных обобщений. Это мышление в основном обеспокоено тем, что при отсутствии способности к самоанализу при принятии решений моделью она может поднять на шаблоны способами, которые в конечном итоге неуместны. Типичным примером этого является модель, в которой выяснилось, что пациенты с астмой имеют низкий риск смертности, потому что политика больницы заключалась в том, чтобы всегда срочно отправлять таких пациентов в реанимацию. Когда модели используются в критических сценариях, эта способность исследовать «причины» того, почему модель узнала то, что у нее есть, имеет решающее значение. Это также происходит потому, что такие модели часто создаются квалифицированными профессионалами, которым неудобно развертывать систему, за которую они, по их мнению, не могут поручиться.
Надежда на то, что новые знания могут быть извлечены из этих моделей: способами, которые дадут людям новое концептуальное понимание: Это в основном то, что вы слышите от людей, использующих машинное обучение в прикладной науке. Здесь интерпретируемость рассматривается как сильная добавленная стоимость, потому что, если мы сможем перевести эти машинные абстракции обратно в понятные для человека концепции, мы сможем вплетать эти концепции обратно в наши существующие сети знаний и использовать их для дальнейшего исследования.
Чувство права на логическое обоснование решения, принятого в отношении нас. Это немного сложнее объяснить, но в нем есть некоторая эмоциональная значимость. Это связано со спорами о машинной предвзятости, и это, безусловно, правда, что многие люди, которые спорят с этой точки зрения, обеспокоены тем, что модель внутри черного ящика использует информацию способами, которые, по нашему мнению, неуместны. Но я думаю, что здесь действует еще более широкое понятие справедливости: убежденность в том, что нужно иметь возможность требовать обоснования при принятии решения - о ссуде, испытательном сроке - на слушании. Когда кто-то дает вам причины, вы можете ухватиться за них и, возможно, оспорить их. Когда модель дает вам непреклонное, непонятное решение, я могу понять, что было бы тираническим, если бы не было возможности «защитить себя», если это оправдано, от используемой логики.

Почему сложность снижает интерпретируемость?

Рискуя показаться педантичным, почему ResNet не поддается интерпретации? Какого фундаментального качества ему не хватает? После обучения система является полностью детерминированной, поэтому вы можете выписывать уравнения, связывающие каждую величину в модели с любой другой величиной. Я думаю, что фундаментальный недостающий элемент здесь связан не столько с недостатками моделей, сколько с недостатками человеческого познания. Когда мы «думаем», нам требуются значимые концепции как единицы этой мысли, и нам обычно нужно, чтобы эти концепции были абстрагированы и обобщены - в некоторой степени сжаты - для того, чтобы они были податливыми. Предоставление кому-либо нарративизированного прозаического объяснения по сравнению с вручением им трех матриц, полных весов, приводит к очень разным уровням интерпретируемости, потому что на самом деле для нас невозможно удерживать информацию, содержащуюся в этих матрицах, в нашей голове одновременно. Это мотивирует то, что я считаю ключевой идеей интерпретируемости: интерпретируемое представление сложной модели почти всегда является ее сжатым представлением.

Это представление о необходимости истинной интерпретируемости концепций позволяет понять, почему мы часто обнаруживаем, что модели глубокого обучения особенно трудно осмыслить. Это, безусловно, правда, что отчасти это связано с архитектурой самой модели. Но я также утверждаю, что отчасти проблема заключается в том, что глубокое обучение исторически было наиболее эффективным на очень необработанных входных данных. Напротив, когда вы работаете, скажем, с данными экономической переписи в качестве входных характеристик, каждая характеристика по определению представляет собой значимую для человека концепцию, поскольку причинно-следственная цепочка идет в направлении вычисляемой характеристики, поскольку человек думал, что вычисления будут значимыми и ценными. С очень необработанными входными данными возникает проблема, заключающаяся в том, что отдельные входные переменные - в данном случае значения пикселей - не привязаны к концепциям; В какой бы степени модель ни использовала абстракции более высокого уровня, они представляют собой полностью изученные абстракции, а не те, которые вводятся в систему людьми. Вы видите этот поиск смысла всякий раз, когда кто-то выполняет визуализацию нейронов или слоев, и мы неизбежно пытаемся присоединить человеческие концепции - этот ищет глаза, этот - здания и т. Д. - хотя на каком-то уровне мы знаем, что ожидаем машинных абстракций аккуратно прививать человеческие идеи - это немного неправильно.

Какие существуют виды интерпретируемости?

При чтении статьи - LIME, Shapley Values, Neuron Visualization и т. Д. - которая направлена на решение проблемы интерпретируемости модели, я считаю полезным разделить ее на несколько категорий.

Атрибуция характеристик и внутренняя логика: для меня наиболее значимое различие заключается между подходами, которые стремятся присвоить значения атрибуции характеристикам, и подходами, которые пытаются прояснить фактическую внутреннюю работу модели. Shapley Values и LIME являются примерами первого. Их основная цель - спроецировать поведение модели обратно на набор входных функций (или созданных человеком альтернативных входных функций) таким образом, чтобы придать больший вес функциям, которые - через все изгибы и повороты модели - оказал большее влияние. Напротив, такие методы, как визуализация шаблона слоя, попадают в последнюю категорию: попытки понять промежуточные абстракции, которые модель создает в процессе достижения окончательного ответа. Хотя оба они в некотором смысле стремятся к «интерпретируемости», я думаю, что есть смысл в более широком принятии каких-то четких названий для этих различных подцелей интерпретируемости.

Знание через моделирование против знания через самоанализ: Второе, несколько более тонкое различие связано не с целями данного метода интерпретируемости, а с методами, которые он использует для получения ответа. Знания, основанные на моделировании, означают, что мы получаем представление о нашей модели, генерируя некоторую форму имитируемых данных, фиксируя, как модель ведет себя для этих точек данных, и используя это в качестве вашего понимания. Это сокращается в несколько ином направлении, чем указанная выше ось, поскольку как LIME (которая имитирует образцы данных локально, а также использует локальное ядро), так и Neuron Visualization (которая численно оптимизирует пиксели, чтобы подтолкнуть внутренние состояния к высоким значениям активации) попадают в эту « моделирование »стороны этого уравнения. Напротив, знание посредством интроспекции происходит от взятия фиксированных аспектов вашей модели и использования их для получения знаний, без необходимости выполнять такого рода симуляцию. Некоторыми примерами этого второго типа являются важность основных характеристик в линейных моделях (где линейность и фиксированное количество членов означают, что вы можете просто аналитически вычислить FI), а также важность функции уменьшения Джини в ансамблях случайных лесов, поскольку оба являются просто свойствами обученная модель. В целом, однако, я думаю, что этот последний класс методов менее применим к более сложным моделям, и поэтому большинство новых статей попадают в первую группу.

Идея создания системы, которую мы не полностью понимаем - и, скорее всего, не можем полностью контролировать - в основном синонимична высокомерию, обвинению, которое в последнее время часто бросается в адрес разработчиков сложных моделей. И хотя эта тяга к понятным людям объяснениям может иногда вызывать разочарование и луддитовское поведение с технической стороны, я действительно думаю, что есть веские причины - в первую очередь, связанные с доверием принятия и проверкой хрупкости внутренних представлений - почему это остается продуктивной областью. учиться. Моя единственная жалоба, которую весь этот пост косвенно касается, заключается в том, что я думаю, что мы сваливаем широкий спектр желаемых целей и лежащих в их основе мотиваций в одно большое ведро, что делает наш дискурс по этому вопросу более запутанным и неясным, чем он мог бы быть в противном случае.

Расскажи мне историю: мысли об интерпретируемости модели

Почему сложность снижает интерпретируемость?

Какие существуют виды интерпретируемости?

Вопросы по теме