Глубокая исследовательская работа от FinRegLab и Стэнфорда. Белая книга и панельные доклады семинара доступны здесь.

Технический документ составляет ~120 страниц, мои заметки — ~20 страниц, а этот блог, вероятно, состоит из 4–5 страниц. Так что это очень-очень сжато — рекомендую прочитать статью полностью — но, конечно же, после прочтения моего блога!

Для привлечения внимания я аннотировал рекомендации таким образом, чтобы вы могли отсканировать и выбрать 13 рекомендаций, игнорируя остальные!

Рекомендации №0 : отсканируйте и найдите все 13 рекомендаций в этом блоге!! Кто знает, может их больше… или меньше…

Технический документ называется «Объяснимость и справедливость машинного обучения: выводы из потребительского кредитования: (апрель 2022 г.)».

Очень подробная работа, хорошие идеи, и у них есть планы охватить гораздо больше. Это хорошее начало — поздравляем исследователей с их прекрасной работой. Это эмпирический официальный документ, поэтому он содержит наблюдательные, экспериментальные результаты, а не какой-либо уровень теории.

У меня есть несколько замечаний по поводу более тонких методологий, того, что есть, а что нет, а также выводов. Но они очень незначительны по сравнению с ценностью и глубиной произведения.

У меня есть некоторые мысли в разделе "Раздел 8. Будущие предложения" ниже.

Как обходной путь, в то же время я читал Путь королей Прайм и Путь короля Брэндона Сандерсона. Каждая книга ~ 1000 страниц! Закончил книги и этот технический документ (119 страниц, но заслуживает большего внимания) почти одновременно - переключение контекста было, мягко говоря, интересным! Кстати, если вы новичок в серии Архив буресвета, прочтите Prime 1st — книги вам понравятся намного больше. Жизнь перед смертью, сила перед слабостью, путешествие перед пунктом назначения!

В этом блоге я не буду вдаваться в методологии, а расскажу о более широком понимании. Остерегайтесь — на первый взгляд некоторые наблюдения могут показаться нелогичными и неожиданными, но при более глубоком рассмотрении они обретут смысл.

Я думал о нескольких подходах к обобщению работы — линейный или ориентированный на лучшие практики, казалось, был лучшим. Хотя повествование, сосредоточенное на лучших практиках, было бы лучше для короткого блога, ему нужен фон, поэтому я собираюсь рассказать об основах с аннотированными лучшими практиками. Пожалуйста, потерпите меня…

1. Эмпирическая структура

Работа и документ являются эмпирическими в том смысле, что исследователи выбрали уже доступные наборы данных и набор алгоритмов. Затем они связались с поставщиками в этой области и работали с ними, чтобы оценить предложение и понять прагматическую полезность, т. е. полезность информации, генерируемой инструментами, для повседневной работы с моделью конвейера.

2. Фон

В контексте потребительского кредитования объяснимость модели служит достижению широко разделяемых целей в отношении борьбы с дискриминацией, расширения прав и возможностей потребителей и ответственного принятия рисков.

  • Для кредиторов: объяснимость модели является ключевым инструментом, помогающим им оценить, можно ли ответственно использовать модель в предполагаемом приложении, чтобы обеспечить повседневную работу по управлению соответствующими пруденциальными рисками и рисками защиты прав потребителей, и документировать усилия по соблюдению законов и правил.
  • Для потребителей: объяснимость модели помогает гарантировать, что они получают основную информацию о том, как принимаются определенные виды неблагоприятных кредитных решений, и обеспечивает эффективное обращение за помощью.
  • Для регулирующих и директивных органов: объяснимость модели — это инструмент, позволяющий осуществлять надзор и выявлять недостатки в соблюдении законов и нормативных актов.

3. Фокус и подход

В этом рабочем документе они сосредоточились на двух правилах защиты прав потребителей, которые требуют от кредиторов:

  1. Уведомление о неблагоприятном действии (AAN). Предоставьте соискателям кредита, которым было отказано в выдаче кредита или которым были назначены более высокие цены, основные причины таких решений. Чтобы создавать уведомления о неблагоприятных действиях, кредиторы должны иметь возможность идентифицировать факторы прогноза модели для отдельных заявителей, в отношении которых принимаются неблагоприятные решения, и сопоставлять эти факторы с описаниями или кодами причин, которые будут предоставлены потребителю.
  2. Справедливое кредитование, разрозненное воздействие и альтернатива с наименьшей дискриминацией (FL, DI и LDA) — выясните, имеют ли модели андеррайтинга непропорционально неблагоприятные последствия на основе защищенных характеристик, и если да, найдите альтернативные модели.

4. Точки зрения

Исследователи оценили инструменты с трех точек зрения:

4.1 Верность

  • Для AAN это способность надежно идентифицировать функции, которые могут помочь описать, как модели принимают неблагоприятные кредитные решения.
  • Для DI это способность надежно идентифицировать функции, которые на самом деле связаны с неблагоприятным воздействием модели.

4.2 Согласованность

  • Независимо от того, различаются ли драйверы, идентифицированные одним и тем же инструментом в разных моделях или разными инструментами в одной и той же модели, т. Е. Согласованность между диагностическими инструментами и согласованность между моделями.

4.3. Удобство использования

  • Для AAN это способность модельного диагностического инструмента предоставлять полезную информацию, которая помогает заявителю, в отношении которого принято неблагоприятное кредитное решение, удовлетворить критерии утверждения в течение одного года.
  • Для DI это возможность идентифицировать информацию, которая позволяет кредиторам соблюдать цели и задачи регулирования защиты прав потребителей.

Рекомендация №1. При оценке инструментов или систем для оценки справедливости сравнивайте их по трем параметрам, а именно. достоверность, последовательность и удобство использования.

5. Модели

Они использовали портфель моделей — от простой логистической регрессии с ~ 45 функциями до моделей GLM, XGBoost и Deep Learning с ~ 650 функциями.

Рекомендация № 2 . Не сравнивайте предвзятость и справедливость с одной моделью. Попробуйте широкий спектр моделей — от очень простых до самых загадочных, от нескольких переменных до самого большого набора функций модели.

Это дает глубокое понимание предметной области, данных, алгоритмов и переменных модели. Кроме того, это облегчит эффективное общение с заинтересованными сторонами — с разным уровнем технической подготовки.

Более того, с таким уровнем понимания вы можете точно настроить модели и принять решения о действиях, чтобы увеличить показатели, необходимые бизнесу, и уменьшить нежелательные побочные эффекты.

6. Данные

Они получили данные кредитного бюро для репрезентативной выборки из 50 миллионов человек со всех концов США, охватывающих период с 2009 по 2017 год, и использовали неоценочные характеристики, то есть отсутствие кредитного рейтинга, географии или оценок доходов. Данные были соответствующим образом замаскированы для исследований.

Рекомендация №3 . Чтобы повысить точность модели и использовать «неправильно сформированные» данные, создайте индикаторы пропущенных значений, а также индикаторы выбросов для числовых функций, например а также преобразования для учета асимметрии.

Рекомендация №4. Для андеррайтинга кредита будет достаточно одноразового кодирования категориальных данных, за исключением специальной категории моделей, таких как LightGBM, где будет работать целочисленное/порядковое кодирование. хорошо.

Но для функций с огромным количеством категорий (например, 10) разделение поддоменов n-gram или хэш-кодирование могут быть лучшим выбором.

Встраивание — это выбор для крупномасштабных категорий, таких как продукты — например, Instacart преобразует свои 10 миллионов продуктов в 10-мерное встраивание [Здесь]

Интересный метод, используемый исследователями, — это использование данных с избыточной выборкой, которые они называют «данными развертывания». Я думаю, что этот термин можно было бы переименовать, чтобы сделать его более понятным.

Чтобы понять, как свойства справедливости моделей обобщаются на контекст с другим составом заявителей, они построили второй набор данных («данные о развертывании»), в котором была проведена избыточная выборка заявителей на кредитные карты из географических регионов с более высокой долей заявителей из числа меньшинств. . Вы можете распространить это на любой метод избыточной выборки, чтобы сравнить DI различных схем!

Рекомендация № 5. Создайте синтетический набор данных/выборку с разным распределением защищенных классов (т. е. набор данных, специально предназначенный для представления различного состава кандидатов). ) для оценки между различными схемами смягчения смещения. Было бы очень информативно смоделировать поведение модели для гипотетического распределения претендентов и сравнить поведение модели между различными схемами.

Но будьте осторожны, чтобы не обобщать результаты — результаты действительны только в контексте сравнений и не должны публиковаться в качестве показателя для характеристики и обобщения производительности модели.

7. Исследования и результаты

7.1. Обзор :: Осторожный оптимизм!

Результаты представляют собой комбинацию хороших новостей и плохих новостей.

1Существуют диагностические инструменты, которые могут помочь кредиторам решить проблемы с прозрачностью, связанные с моделями андеррайтинга с машинным обучением — они могут генерировать соответствующую информацию о поведении модели, чтобы помочь кредиторам соблюдать два конкретных правила защиты прав потребителей, рассмотренные в отчете.

2Однако не существует универсальных или «универсальных» инструментов диагностики моделей, которые кредиторы могли бы использовать для объяснения, понимания и управления всеми аспектами моделей андеррайтинга с использованием машинного обучения.

3Короче говоря, выбор кредиторами в отношении того, какие диагностические инструменты использовать и как их использовать, важен для достижения конкретных целей защиты прав потребителей, особенно для более сложных моделей.

Рекомендация № 6. Тщательно выбирайте правильные инструменты и подходы для удовлетворения конкретных потребностей в прозрачности моделей андеррайтинга с машинным обучением. На этом этапе зрелости может потребоваться несколько инструментов для работы в конкретных областях. Ответственное использование средств диагностики моделей является частью управленческих решений, которые должна принимать организация.

Выбор инструментов имеет значение; интерпретация анализа с инструментов имеет значение

7.2.AAN (Уведомление о неблагоприятном действии) :: Используйте с умом!

  • Две задачи заключались в том, чтобы сгенерировать четыре фактора неблагоприятных кредитных решений для группы из 3000 отклоненных заявителей, а затем определить возможный путь к принятию в течение 12 месяцев для каждого из 3000 отклоненных заявителей.
  • Путь к принятию интересен, потому что это вычислительная задача, а также поиск правильного набора возможных функций, которые потребитель может изменить. [Примечание: контрфактуалы — важная область для этого — я пометил контрфактуалы как будущие дополнения ниже]

1Они обнаружили существенные различия в точности диагностических инструментов, которые обеспечивают четыре фактора неблагоприятного кредитного решения.

2 Хотя лучшие инструменты определяют признаки, которые действительно связаны с неблагоприятным кредитным решением, изменения этих признаков часто недостаточно для отмены неблагоприятного кредитного решения.

3Согласованность между инструментами и моделями… ну… не такая уж и постоянная; даже 50% было бы большим числом для поиска. С одной стороны, это хорошо, потому что мы можем получить разные точки зрения из разных инструментов.

4Последовательность для простых моделей выше, чем для сложных моделей, но не настолько, как можно было бы ожидать — это означает, что подход инструментов имеет большее значение, чем сами алгоритмы модели.

5 С точки зрения юзабилити существующие инструменты не обязательно хорошо справляются с поиском действенных путей к принятию — маловероятно, что изменение лишь нескольких функций по отдельности поможет преодолеть отторжение. Как я упоминал ранее, ответом может быть контрфактика — все еще в режиме исследования, но мы могли бы извлечь пользу, если соединим контрфактуальность с человеком в петле.

Рекомендация № 7 . При предложении возможного пути к одобрению изменение функций, помеченных инструментами, само по себе недостаточно для отмены неблагоприятного кредитного решения. Вместо этого эти функции следует понимать в контексте их корреляций: только их перемещение вместе с коррелированными функциями показывает полный эффект на одобрение кредита.

Также рассмотрите функции, которые нельзя изменить, которые можно перемещать только одним способом, и коррелированные функции, например. если мы предлагаем высшее образование, это также увеличивает возраст. Несмотря на то, что это здравый смысл, машины не понимают этих ограничений, если не указано иное.

7.3. FL, DI и LDA (Справедливое кредитование, разрозненное воздействие и альтернатива с наименьшей дискриминацией) :: Практичность и улучшение!

  • Эти требования отражают две доктрины справедливого кредитования: Разное обращение и Разное воздействие.
  • Несопоставимое обращение – указывает на то, обращались ли кредиторы с заявителями по-разному в зависимости от защищенных характеристик, таких как раса, пол и т. д.
  • Разрозненное влияние запрещает кредиторам использовать внешне нейтральные методы, оказывающие непропорционально негативное влияние на защищаемые классы, за исключением случаев, когда такие методы соответствуют законным деловым потребностям, которые не могут быть разумно достигнуты с помощью альтернативных средств. с меньшим дискриминационным эффектом. Вот тут-то и появляется LDA. Как вы увидите ниже, инструменты могут находить альтернативы с помощью автоматического поиска.
  • Финансовые учреждения полагаются на статистический анализ, который помогает им соблюдать обе доктрины справедливого кредитования.

Рекомендация № 8. Помните: с появлением передовых инструментов прогнозирования регуляторные органы стали проявлять повышенный интерес, особенно к сложным моделям. И там, где модели машинного обучения опираются на данные из более разнообразных источников или на более сложные функции, остаются открытыми вопросы о том, могут ли кредиторы и регулирующие органы нуждаться в новых инструментах и ​​сталкиваться ли они с новыми ограничениями в попытках диагностировать несоизмеримое воздействие.

1Существует набор диагностических инструментов, демонстрирующих высокую точность как для простых, так и для сложных моделей, т. е. способных надежно идентифицировать особенности, связанные с несоответствиями модели.

Рекомендация № 9. При определении функций модели, которые способствуют несоответствию, выберите инструменты, которые объединяют информацию о том, как функция коррелирует со статусом защищенного класса и насколько важна эта функция для предсказания модели.

2 Когда распределение этих признаков выравнивается по группам или эти признаки значительно смещены в благоприятном направлении, уменьшаются различия между защищаемыми классами. Но повторное взвешивание должно быть выполнено в контексте корреляций их функций — манипулирование функциями по отдельности демонстрирует меньшее сокращение несоответствий

3Ни одна модель не дает наилучших результатов по ряду возможных показателей справедливости, но сложные модели неизменно превосходят более простые модели, которые полагаются на относительно небольшое количество функций как с точки зрения справедливости, так и с точки зрения прогностической эффективности.

4 Относительные закономерности прогностической эффективности и неблагоприятного воздействия сохраняются при оценке моделей андеррайтинга на удерживаемом наборе данных с другим составом кандидатов.

Рекомендация № 10. Следует помнить, что более сложные модели демонстрируют более высокую прогностическую эффективность именьшие расхождения по всем показателям по сравнению с большинством простых моделей.

5Возможность описывать признаки, приводящие к различиям в отношении защищенного класса, не приводит автоматически к моделям, которые являются менее дискриминационными альтернативами (LDA), когда эта информация используется механически. Автоматизированные инструменты работают значительно лучше, чем стратегии, основанные на отбрасывании функций, которые были определены как причины несоответствий в модели, даже для невиданного ранее набора данных с другим составом кандидатов.

Рекомендация № 11. При поиске альтернативных моделей с менее дискриминационными свойствами (например, альтернатива с меньшей дискриминацией) используйте автоматизацию с такими подходами, как двухцелевая оптимизация и устранение состязательности. Сложные модели в сочетании с инструментами, которые полагаются на некоторую степень автоматизации, могут создать меню спецификаций моделей, которые эффективно сочетают справедливость и прогностическую эффективность.

8. Будущие предложения

Противоречия

  • За исключением краткого упоминания, эта тема не рассматривается в официальном документе. Глубокое погружение в контрфактические методологии, предложения поставщиков и полезность, безусловно, станет отличным треком для следующей версии статьи.
  • Контрфакты не только помогают части истории AAN, но и служат образовательным инструментом для потребителей, когда используются в режиме «человек в цикле».

Рекомендация № 12. Используйте неверные факты для обучения клиентов. Это может быть отличным местом, чтобы помочь потенциальным клиентам, но используйте его в режиме реального времени. В будущем может наступить время, чтобы представить контрфакты непосредственно потребителям, но это требует тщательного рассмотрения с разных точек зрения.

Нетрадиционные расширенные наборы данных и инклюзивная экосистема

  • Вопрос не в том, можем ли мы быть более инклюзивными и обслуживать недопредставленное население, а в том, как…
  • Как мы можем быть более инклюзивными, продвигая причины недопредставленности, а именно. недофинансированные и небанковские. Это социально выгодно и выгодно для бизнеса. Но требует нетрадиционных наборов данных и даже бизнес-политик
  • Где будущие версии этого отчета могут помочь нам понять, как мы можем использовать инструменты для построения и оценки моделей, добавляя дополнительное измерение нетрадиционных расширенных наборов данных.

Дополнительные типы моделей и модели белого ящика (менее непрозрачные)

  • Я подозреваю, что большая часть работы предполагает модели черного ящика. Было бы интересно перейти к более прозрачному моделированию, где можно было бы заглянуть в различные этапы внутри алгоритма — такие вещи, как интегрированные градиенты для моделей глубокого обучения.
  • Это даст нам представление об эффективном использовании DeepLearning (со всей его «глубиной») для андеррайтинга, особенно для нетрадиционных расширенных наборов данных. Они использовали модели сложных нейронных сетей, но нет сведений, специфичных для этого класса моделей, то есть того, как они работают по сравнению с моделями без DL.
  • Мы знаем, что можем разрабатывать модели, но нам также необходимо понимать, как объяснять непрозрачные модели, а также эффективно применять оценку справедливости. Если мы сможем это сделать, я думаю, мы добьемся большего прогресса в измерении инклюзивности, а именно. более разнообразные данные и модели, которые могут извлечь правильную ценную информацию — «ответственное принятие риска».

Интерсекциональность

  • Еще одна связанная линия запроса, которая будет включена в следующую версию. В документе исследуется только один класс, который может быть относительно проще для инструментов. Методология оценки в перекрестном измерении очень важна для практикующего врача.

Снижение справедливости

  • Это еще одна тема, которая затрагивается на периферии. Отдельный раздел, посвященный стратегиям смягчения последствий с учетом имеющихся инструментов, был бы очень интересен.

Редакционная придирка

  • Техническому документу не помешало бы еще некоторое редактирование! Я говорю это как можно скромнее, понимая, какой объем материала она охватывает. Интересно, что именно тогда нам нужно больше редактирования. Есть некоторая избыточность и повторение — много раз мне казалось, что я читал то же самое где-то еще, вероятно, из-за случайной потери контекста, которая не очевидна.
  • Я боюсь, что многие из тех, кто получил бы пользу от этой работы, могут не остаться с ней до конца!
  • Вероятно, может помочь организация статьи, ориентированная больше на отраслевых практиков, а не на академиков.

Было сказано, что …

  • Основная цель этого блога заключалась в том, чтобы я извлек идеи и лучшие практики для нескольких документов (внутренних и внешних), над которыми я работаю. Это мне удалось очень хорошо — большая часть этого блога взята прямо из бумаги! Итак, глубина и детали присутствуют.

Спасибо команде, разработавшей этот технический документ — как я уже говорил, он проницательный, продуманный и подробный!!

Дополнение. Примечание о показателях справедливости

В документе есть отличный раздел о метриках справедливости, который, я думаю, будет очень полезен в качестве справочного материала. Существует три типа — метрики на основе порога, метрики без порога и, конечно же, гибридные.

Пороговые показатели

  • Этот тип имеет отсечение, основанное на предыдущем опыте — часто очень интуитивно понятное и соответствует реалистичному варианту использования.
  • Эти показатели сосредоточены на соответствующих результатах, учитывая порог одобрения, используемый на практике. Различия в крайних хвостах модели могут не иметь большого значения для наблюдаемых различий в результатах.
  • Таким образом, эти показатели ближе к значению справедливости, подразумеваемому разрозненными требованиями к воздействию.

Недостатки

  • Недостатком метрик, основанных на порогах, является то, что они зависят от порога принятия решения. Если кредиторы изменяют порог принятия решения, измеренное значение несоответствий также изменяется.
  • Эти показатели также могут быть чувствительны к изменениям в распределении кандидатов, а также к стратегическим соображениям, связанным с соответствующим продуктом, бизнес-направлением или кредитным портфелем.
  • Может показаться, что модель имеет низкие расхождения, когда сталкивается с пулом кандидатов, который содержит много кандидатов из меньшинств, которым модель присваивает низкие оценки риска.
  • Та же самая модель может иметь большие различия, когда сталкивается с пулом кандидатов, который содержит много кандидатов из меньшинств, которым модель присваивает высокие оценки риска и, следовательно, отклоняет.

Рекомендация № 13. При использовании любой безусловной метрики, такой как пороговая метрика, для оценки справедливости, обязательно документируйте, а затем отслеживайте состав класса. Если состав класса отличается от ожидаемого, предполагаемого в метрике, метрика должна быть оценена на предмет пересмотра.

Примеры включают:

  • Коэффициент неблагоприятного воздействия (AIR) (отношение степени приемлемости для группы меньшинства к степени приемлемости для группы большинства. Значения AIR, близкие к 1, соответствуют большему паритету
  • Разница в показателях истинно положительных результатов («TPR») и показателей ложноположительных результатов («FPR») — TPR — это доля правильно предсказанных дефолтов, тогда как FPR относится к доле недефолтов, которые неправильно прогнозируются как значения по умолчанию. В отличие от AIR, эти меры также учитывают метки результатов (здесь — значения по умолчанию), а не только решения (здесь — утверждения). Значения ближе к нулю соответствуют большей четности.

Рекомендация № 14. Используйте показатели на основе пороговых значений совместно. Например, рассмотрение AIR в контексте TPR и FPR позволяет специалистам-практикам определить, достигается ли более высокий паритет уровня одобрения (AIR) за счет одобрения людей, у которых недостаточная способность погасить кредит, что отражается в снижении TPR.

Непороговые показатели

  • Статистический или демографический паритет — разница в средних прогнозируемых вероятностях по защищенным классам. Чем ближе к нулю, тем больше паритет
  • Условная статистическая четность следует той же идее, что и статистическая четность, но «контролирует» влияние ключевых функций, которые могут исказить распределение вероятностей по защищенному классу.
  • Стандартизированная средняя разница ("SMD") – это масштабированная версия статистического паритета. средняя разница в прогнозах между защищенными классами, деленная на стандартное отклонение прогнозов модели. Чем ближе к нулю, тем больше паритет

Гибридные показатели

  • Метрики, которые объединяют предсказания моделей и решения, но не основаны на пороговых значениях. Ключевым примером такой гибридной метрики является паритет AUC.
  • Паритет AUC – разница в эффективности прогнозирования, измеренная AUC, по защищенным классам.