Выявление недобросовестного или небезопасного ИИ с помощью графических критериев

Как использовать диаграммы причинно-следственных связей, чтобы распознать скрытые стимулы, формирующие поведение агента ИИ

Справедливость и безопасность продвинутых систем машинного обучения вызывают законные опасения. Чтобы устранить корень проблемы, исследователи могут проанализировать стимулы, создаваемые алгоритмом обучения, с помощью диаграмм причинно-следственных связей (CID). Среди прочего, компания DeepMind Safety Research написала о своем исследовании CID, и я уже писал ранее о том, как их можно использовать, чтобы избежать фальсификации вознаграждения. Тем не менее, несмотря на некоторые описания типов поощрений, которые можно найти с помощью CID, я не видел краткого описания графических критериев, используемых для определения таких поощрений. Чтобы восполнить этот пробел, в этой публикации будут обобщены концепции стимулирования и соответствующие им графические критерии, которые были первоначально определены в статье Поощрения агентов: причинно-следственная связь.

Краткое напоминание: что такое CID?

Диаграмма причинного влияния представляет собой ориентированный ациклический граф, в котором разные типы узлов представляют разные элементы задачи оптимизации. Узлы решений представляют значения, на которые может влиять агент, узлы полезности представляют цель оптимизации, а структурные узлы (также называемые узлами изменений) представляют оставшиеся переменные, такие как состояние. Стрелки показывают причинно-следственную связь узлов, а пунктирные стрелки указывают информацию, которую агент использует для принятия решения. Ниже приведен CID марковского процесса принятия решений с узлами решений, выделенными синим цветом, и узлами полезности, выделенными желтым:

Пример 1: потенциально несправедливая модель прогнозирования оценок

Первая модель пытается предсказать оценки старшеклассника, чтобы оценить его поступление в университет. Модель использует среднюю школу и пол учащегося в качестве входных данных и выводит прогнозируемый средний балл. В CID ниже мы видим, что прогнозируемая оценка является узлом принятия решения. Поскольку мы обучаем нашу модель для получения точных прогнозов, точность является узлом полезности. Остальные структурные узлы показывают, как релевантные факты о мире соотносятся друг с другом. Стрелки от пола и среднего образования до прогнозируемой оценки показывают, что это входные данные для модели. В нашем примере мы предполагаем, что пол учащегося не влияет на его оценку, поэтому между ними нет стрелки. С другой стороны, предполагается, что средняя школа учащегося влияет на его образование, что, в свою очередь, влияет на его оценку, что, конечно же, влияет на точность. В примере предполагается, что расовая принадлежность учащегося влияет на то, в какую среднюю школу он ходит. Обратите внимание, что модели известны только высшая школа и пол .

Когда специалисты по ИИ создают модель, они должны помнить о том, как чувствительные атрибуты, такие как раса и пол, повлияют на прогноз модели. Чтобы тщательно продумать, когда модель может быть стимулирована к использованию такого атрибута, нам сначала нужно условие, когда узел может предоставить полезную информацию для увеличения вознаграждения. Назовем такой узел «реквизитом».

Необходимость и d-разделение

Необходимость является частным случаем более общего графического свойства d-отделения. Интуитивно, узел a отделен d от другого узла bзаданным набором узловC, если известны элементы C означает, что знание a не дает никакой дополнительной информации для вывода b. Мы говорим, что C d-отделяет a от b. В контексте графических моделей d-разделение позволяет нам говорить о том, когда узел предоставляет полезную информацию о значении какого-либо другого узла. Это именно то, что нам нужно для определения обязательности, которая касается информации, которую может предоставить узел, чтобы мы могли вывести значение узла вознаграждения на основе решения. Узел x является необязательным, если решение и его родители (исключая x) d-отделяют x от тех вспомогательных узлов, которые решение может влияние (т.е. к которому есть путь от решения).

Теперь, когда мы знаем, что для того, чтобы сказать, является ли узел необходимым, нам нужно уметь распознавать d-разделение, позвольте мне объяснить три его графических критерия. Предположим, у вас есть два узла, x и u, и вы хотите определить, отделены ли они друг от друга некоторым набором узлов A. Для этого вам нужно рассмотреть каждый путь от x до u (игнорируя направление стрелок). Этот путь может быть разделен элементами A тремя способами.

Путь содержит коллайдер, который неявляется элементом Aи у которого нетдочерних элементов, являющихся элементами A. Здесь под коллайдером понимается узел, в который с обеих сторон входят стрелки, как показано на изображении ниже. Интуитивно понятно, что на коллайдер причинно влияют оба конца пути, поэтому x и u. Следовательно, если вы знаете значение узла коллайдера или одного из его дочерних элементов, то знание значения на одном конце пути позволяет вам делать выводы о другом конце. Таким образом, если бы sнекоторый элемент A был коллайдером, это сделало бы знание x более полезным, а не менее!
Путь содержит элемент цепи или ответвления, который является элементом A. Элемент цепочки содержит внутреннюю стрелку от x и внешнюю стрелку к u. Элемент вилки имеет две направленные наружу стрелки. Если значение такого элемента известно, то знание x не дает никакой дополнительной информации.
Этот момент бесполезен, но я упомяну его для полноты картины: если x или u сами являются элементами A, то A d-разделяет x и u. Очевидно, что если x или u уже известны, то знание x не поможет сделать вывод о u. .

Если каждый путь от x до u d-разделен A, то мы говорим, что x и u разделены буквой A. Чтобы вернуться к теме обязательности, давайте снова рассмотрим пример с прогнозированием оценок. Мы видим, что единственный путь от пола к точности проходит через узел решения. Поскольку прогнозируемая оценка является средним элементом цепочки, она разделяет этот путь d. Следовательно, пол не является обязательным наблюдением в этой модели.

Мы говорили о том, как знание узла может быть полезно для вывода значения другого узла. Когда агенту необходимо сделать выводы для решения задачи оптимизации, эта полезность может привести к стимулам, которые могут привести к тому, что агент будет иметь нежелательные свойства. Теперь я представлю два типа стимулов, которые важны для модели прогнозирования оценок.

Ценность информации

В нашем примере агент должен вывести оценки студента, чтобы оптимизировать точность. Это проще, если известна средняя школа учащегося, поскольку она влияет на истинную оценку и, следовательно, на точность. Мы говорим, что узел старшая школа имеет ценность информации (VoI). Интуитивно положительный VoI означает, что агент может получить более высокое вознаграждение, зная ценность узла.

VoI узла x зависит от ответа на вопрос «Могу ли я принять лучшее решение, если рассмотрю значение x?». Этот вопрос потенциально гипотетичен, так как не может быть прямой связи между x и решением. Например, если x не является входом для нашей прогнозной модели. Вот почему нам нужно взглянуть на модификацию CID нашей модели, где мы добавили стрелку от x к решению. Если в этом измененном CID требуется x, то x имеет положительную ценность информации.

В модели прогнозирования оценок ясно, что пол не имеет VoI, поскольку мы уже установили, что это не обязательно, и в нем уже есть стрелка, указывающая на прогнозируемую оценку. Далее выясняется, что у расы нет VoI. Когда мы добавляем стрелку от расы к прогнозируемым оценкам, у нас есть два пути к точности: один отделен от точности прогнозируемыми оценками по d, а другой — старшей школой, которая является предком прогнозируемых оценок. Следовательно, раса не требуется в модифицированном CID и, следовательно, не имеет положительного VoI. С другой стороны, средняя школа, образование и класс — все они имеют положительный VoI.

То, что раса не имеет положительного VoI, не означает, что она не влияет на модель нежелательным образом. Чтобы понять, каким может быть это влияние, нам нужно рассмотреть другой тип стимула.

Поощрение отклика

Даже если агенту не нужно знать значение узла для принятия оптимального решения, последующие эффекты узла могут влиять на его поведение. Если агент меняет свое поведение в зависимости от значения узла, мы говорим, что на узле есть побуждение к ответу. Ясно, что необходимые узлы имеют стимул ответа. Кроме того, существует поощрение отклика на узлы, которые влияют на необходимый узел или его предков. Это связано с тем, что изменение их значений будет просачиваться вниз по течению и изменять значение необходимого узла, побуждая агента реагировать.

Графически, чтобы выяснить, какие узлы имеют стимул к ответу, мы сначала удалим стрелки, ведущие к узлу принятия решения, из тех узлов, которые не являются обязательными. Полученный CID называется минимальным сокращением CID исходной модели. Если существует направленный путь от узла x к узлу решения в минимальной редукции, то на x есть побуждение к ответу.

В модели прогнозирования оценок единственная стрелка от необязательного узла к решению исходит от пола. Если мы удалим его, то увидим, что по-прежнему существует направленный путь от гонки к прогнозируемому уровню. Это означает, что наша модель может делать разные прогнозы об оценках учащихся в зависимости от их расы! Для алгоритма, который должен помочь оценить университетские заявления, это плохие новости. Говоря языком литературы о справедливости ИИ, мы бы сказали, что модель контрфактически несправедлива по отношению к расе. Здесь контрфактическая справедливость по отношению к атрибуту означает, что значение атрибута не меняет прогноз модели. Можно показать, что побуждение к ответу на узле такое же, как модель, которая контрфактически несправедлива по отношению к соответствующему атрибуту.

Пример 2: манипулятивный рекомендатель контента

Мы видели, как причинно-следственные связи между переменными могут побуждать модели делать несправедливые прогнозы, предвзятые в отношении определенной группы. Помимо справедливости, еще одной важной задачей при разработке систем ИИ является их безопасность. В документе AIACP используется пример системы рекомендации контента, чтобы проиллюстрировать, как можно стимулировать небезопасное поведение. Этот хорошо известный пример касается системы, которая рекомендует пользователям посты для чтения в приложении для социальных сетей и стремится максимизировать рейтинг кликов пользователя. Для этого он создает модель исходного мнения пользователя. На основе этой модели система принимает решение о том, какие сообщения показывать пользователю. Это решение формирует влиятельное мнение пользователей. Система вознаграждается за клики пользователя, на чье мнение повлияли. Это приводит к рекомендательной системе, которая целенаправленно показывает пользователю более поляризующий контент, поскольку система узнает, что клики более радикального пользователя легче предсказать, и, следовательно, ему легче показывать сообщения, которые генерируют клики.

В этой модели задействованы два новых типа стимулов, которых мы не видели в примере со справедливостью. Мы видим, что агент манипулирует переменной влияет на мнения пользователей, даже если мы этого не хотим. Это ставит вопрос о том, когда для агента полезно контролировать переменную.

Значение контроля

Интуитивно понятно, что узел, не принимающий решения, имеет значение контроля (VoC), если агент может увеличить свое вознаграждение, установив значение узла. Как и VoI, это условие является гипотетическим, поэтому узел имеет VoC, даже если агент не может на него повлиять, если это увеличивает его вознаграждение.

Чтобы графически определить, какие узлы имеют VoC, нам нужно посмотреть на минимальное уменьшение CID модели. Любой узел, не являющийся решением, который имеет направленный путь к узлу полезности в минимальном сокращении, имеет VoC. На практике это означает, что необходимые узлы и те узлы, не принимающие решения, которые могут на них влиять, имеют VoC.

Когда мы смотрим на нашу рекомендательную систему, мы видим, что каждый узел, кроме по определению узла принятия решений, имеет VoC. Минимальное сокращение такое же, как у исходного CID, и каждый узел имеет направленный путь к кликам. К сожалению, это означает, что влияющие на мнение пользователей имеют положительную оценку качества отзыва. Тем не менее, как я упоминал ранее, узел может иметь VoC, даже если агент не может повлиять на его значение. Следовательно, если атрибут, который мы не хотим, чтобы агент изменил, имеет VoC, это не означает, что агент может или будет его изменять. Чтобы убедиться, нам нужно свойство, учитывающее ограничения агента.

Стимул инструментального контроля

Когда мы преследуем сложную цель, часто есть несколько более мелких побочных целей, которые полезно выполнить, даже если они напрямую не способствуют нашей главной цели. Например, для продвижения в любой работе полезно дружить с коллегами, в студенческие годы легче делать добро в любой степени при здоровом образе жизни, и почти всегда полезно иметь больше денег, чем меньше. В контексте искусственного интеллекта такие цели называются инструментальными. В CID мы говорим о поощрении инструментального контроля (ICI) на узле, если контроль над ним является инструментом повышения полезности. Более формально, существует ICI на узле x, если значение узла полезности можно изменить, выбрав значение узла принятия решения d, чтобы повлиять на x независимо от того, как d влияет на другие аспекты проблемы.

Графический критерий распознавания ICI прост. На узле x имеется ICI, если существует направленный путь от узла решения к узлу полезности, проходящий через x. Путь от узла решения к x указывает, что агент может изменить x своим решением, а путь от x к служебному узлу указывает что изменение x влияет на результирующую полезность.

Снова рассматривая рекомендательную систему, мы видим, что в узлах исходного мнения пользователя или модели исходного мнения пользователя нет ICI, даже если они имеют VoC. Это потому, что агент не может их контролировать. Вызывает беспокойство тот факт, что существует ICI для влияющего на мнение пользователя, указывающего, что изменение его значения повлияет на полученное вознаграждение и что агент может это сделать.

Как исправить манипулятивную рекомендательную систему

Если бы мы были исследователями ИИ или инженерами, разрабатывающими рекомендательную систему, то анализ стимулов нашей модели с использованием CID, как мы надеемся, предупредил бы нас о ICI в отношении мнения пользователей под влиянием. Один из способов исправить это — изменить сигнал вознаграждения. Вместо того, чтобы выбирать посты, чтобы максимизировать клики пользователя, выбирайте посты, чтобы максимизировать клики, предсказанные исходной моделью мнения пользователя. Это убирает стрелку с влияющего мнения пользователей на узел полезности и, таким образом, на ICI. Полученный CID можно увидеть ниже:

Обсуждение

Мы видели различные способы, которыми причинно-следственные связи между переменными могут стимулировать несправедливое или небезопасное поведение агентов. К счастью, в CID есть простые в использовании графические критерии для определения таких стимулов. Задача специалистов по ИИ заключается в правильном определении соответствующих причинно-следственных связей и создании полезного CID. В реальной версии модели прогнозирования оценок, по-видимому, невозможно узнать точную причинно-следственную связь между полом, расой, всеми другими соответствующими переменными и результатом. Следовательно, чтобы создать CID и провести анализ причинно-следственных связей, специалисту-практику придется прибегнуть к оценкам и обоснованным предположениям. В конечном счете, может оказаться невозможным найти полезные функции, которые совершенно не коррелируют с чувствительными атрибутами, такими как пол или раса. До сих пор ведутся дискуссии о том, как поступать с такими атрибутами, которые выходят за рамки исследований ИИ.

Кроме того, желательность стимула полностью зависит от цели модели. В примере с предсказанием оценок мы увидели, насколько опасными могут быть поощрения за ответы, поскольку они ведут к контрфактической несправедливости. С другой стороны, если вы обучаете агента с помощью выключателя, вы хотите побудить его реагировать на этот переключатель. Вместо того, чтобы думать о стимулах как о хорошем или плохом, полезнее рассматривать их как механику процесса обучения, которую нужно использовать в интересах программиста.

Концепция CID и анализа стимулов все еще нова. Тем не менее, уже есть много интересных результатов и перспективных направлений исследований, некоторые из которых я хочу обсудить в следующих статьях. Я рад видеть, как эта область будет способствовать тому, чтобы ИИ стал более справедливым и безопасным для всех.

Библиография

[1] Кэри Райан, Новая статья: стимулы, формирующие поведение, Towards Data Science, 22 января, https://towardsdatascience.com/new-paper-the-incentives-that-shape- поведение-d6d8bb77d2e4

[2] Эверитт и др., Поощрение агентов: причинная перспектива, Arxiv, 2 февраля 2021 г., https://arxiv.org/abs/2102.01685

[3] Эверитт и др., Проблемы и решения подделки вознаграждения в обучении с подкреплением: перспектива диаграммы причинного влияния, Arxiv, 26 марта 2021 г., https://arxiv.org/abs/1908.04734

[4] Everitt et al, Progress on Causal Influence Diagrams, DeepMind Safety Research on Medium, 30 июня 2021 г., https://deepmindsafetyresearch.medium.com/progress-on-causal-influence-diagrams -a7a32180b0d1