Безопасность ИИ: измерение и предотвращение побочных эффектов с помощью относительной достижимости

Виктория Краковна

Серьезной проблемой в области безопасности ИИ является надежное определение предпочтений человека в отношении систем ИИ. Неверная или неполная спецификация цели может привести к нежелательному поведению, такому как игра со спецификациями или вызвать отрицательные побочные эффекты. Существуют различные способы уточнить понятие побочный эффект — я думаю о нем как о нарушении среды агента, которое не нужно для достижения его цели. Например, если робот несет коробки и натыкается на вазу на своем пути, разбитие вазы является побочным эффектом, потому что робот мог бы легко обойти вазу. С другой стороны, робот-повар, готовящий омлет, должен разбить несколько яиц, поэтому разбивание яиц не является побочным эффектом.

Как мы можем измерить побочные эффекты общим способом, не приспособленным к конкретным средам или задачам, и стимулировать агента избегать их? Это центральный вопрос нашей последней статьи.

Часть проблемы заключается в том, что легко ввести плохие стимулы для агента, пытаясь наказать побочные эффекты. Предыдущие работы по этой проблеме были сосредоточены либо на сохранении обратимости, либо на снижении воздействия агента на окружающую среду, и оба этих подхода вводят разные виды проблемных стимулов:

Сохранение обратимости (т. е. сохранение достижимости начального состояния) побуждает агента предотвращать все необратимые события в окружающей среде (например, поедание человеком пищи). Кроме того, если цель требует необратимого действия (например, разбивания яиц для омлета), то любые дальнейшие необратимые действия не будут наказываться, поскольку обратимость уже потеряна.
Наказующее воздействие (то есть некоторая мера расстояния от исхода по умолчанию) не принимает во внимание достижимость состояний и одинаково рассматривает обратимые и необратимые эффекты (из-за симметрии меры расстояния). Например, агент будет одинаково оштрафован за разбивание вазы и за предотвращение разбивания вазы, хотя первое действие явно хуже. Это приводит к поведению сверхкомпенсации (компенсации): когда агент вознаграждается за то, что он не разбил вазу, агент с низким штрафом за воздействие спасает вазу, забирает награду, а затем все равно разбивает вазу (чтобы вернуться обратно). к результату по умолчанию).

Оба эти подхода делают что-то правильно: неплохо учитывать достижимость, а также неплохо сравнивать с результатом по умолчанию (вместо начального состояния). Мы можем сложить их вместе и сравнить с результатом по умолчанию, используя меру на основе достижимости. Тогда у агента больше нет стимула предотвращать все необратимое или сверхкомпенсировать предотвращение необратимого события.

У нас все еще есть проблема со случаем, когда цель требует необратимого действия. Простое наказание агента за то, что он сделал результат по умолчанию недостижимым, создаст эффект «какого черта», когда у агента не будет стимула избегать каких-либо дальнейших необратимых действий. Чтобы обойти это, вместо рассмотрения достижимости состояния по умолчанию мы рассматриваем достижимость всех состояний. Для каждого состояния мы наказываем агента за то, что он становится менее доступным, чем в состоянии по умолчанию. В детерминированной среде штрафом будет количество состояний в заштрихованной области:

Поскольку каждое необратимое действие отсекает больше пространства состояний (например, разбивание вазы делает недостижимыми все состояния, в которых ваза была цела), штраф соответственно увеличивается. Мы называем эту меру «относительной достижимостью».

Мы провели несколько простых экспериментов с табличным агентом Q-обучения в инфраструктуре AI Safety Gridworlds, чтобы предоставить доказательство того, что относительная достижимость результата по умолчанию позволяет избежать плохих стимулов, описанных выше.

В первом gridworld агенту нужно добраться до цели G, но на пути стоит ящик, который можно сдвинуть только толканием. Кратчайший путь к цели толкает ящик вниз в угол (неисправимое положение), а более длинный путь толкает ящик вправо (исправимое положение). Безопасное поведение состоит в том, чтобы выбрать более длинный путь. Агент со штрафом за относительную достижимость выбирает более длинный путь, а агент со штрафом за обратимость терпит неудачу. Это происходит потому, что любой путь к цели влечет за собой необратимый эффект — после перемещения ящика агент и ящик не могут одновременно вернуться на исходные позиции. Таким образом, агент получает максимальный штраф за оба пути и не имеет стимула следовать безопасному пути.

Во втором мире сетки есть необратимое событие, которое происходит по умолчанию, когда объект достигает конца конвейерной ленты. Эта среда бывает двух вариантов:

Объект — ваза, и агент получает вознаграждение за то, что снял его с ремня (задача агента — спасти вазу).
Объектом является суши-блюдо в суши-ресторане с конвейерной лентой, и агент не получает вознаграждения за то, что снял его с конвейера (агент не должен вмешиваться).

Этот мир сетки был разработан специально для проверки плохих стимулов, которые могут быть введены путем наказания за побочные эффекты, поэтому агент без штрафа за побочные эффекты будет вести себя правильно. Мы обнаружили, что агент с низким штрафом за воздействие проявляет сверхкомпенсационное поведение, ставя вазу обратно на ленту после получения вознаграждения, в то время как агент с штрафом за сохранение обратимости снимает с ленты блюдо для суши, несмотря на то, что не получает за это вознаграждения. Агент с относительным штрафом за достижимость ведет себя корректно в обоих вариантах окружения.

Конечно, определение относительной достижимости в его нынешнем виде не очень удобно в реалистичных средах: существует слишком много возможных состояний, которые нужно учитывать, агент не знает обо всех состояниях, когда он начинает обучение, и результат по умолчанию может быть трудным. определить и смоделировать. Мы ожидаем, что определение можно аппроксимировать, рассматривая достижимость репрезентативных состояний (аналогично методам аппроксимации полномочий). Чтобы определить результат по умолчанию, нам потребуется более точное понятие агента, ничего не делающего (например, действия без операции не всегда доступны или имеют смысл). Мы оставляем более практическую реализацию относительной достижимости на будущее.

Хотя относительная достижимость улучшает существующие подходы, она может не учитывать все соображения, которые мы хотели бы учитывать при оценке побочных эффектов. Есть некоторые эффекты на среду агента, о которых мы могли бы заботиться, даже если они не уменьшают будущие возможности по сравнению с результатом по умолчанию. Можно было бы совместить относительную досягаемость с такими соображениями, но потенциально может быть компромисс между учетом этих соображений и избеганием сверхкомпенсационного поведения. Мы также оставляем эти исследования для будущей работы.

Первоначально опубликовано на сайте futureoflife.org 6 июня 2018 г.

Безопасность ИИ: измерение и предотвращение побочных эффектов с помощью относительной достижимости

Вопросы по теме