Учебник по безопасности ИИ

Руководство менеджера по демистификации ИИ . — Часть 3

Пока вы едете на работу, вдруг на дороге появляется группа студентов. У вас нет шансов сломаться вовремя. Как только вы собираетесь повернуть руль, чтобы избежать встречи со студентами, вы видите пожилую женщину, идущую в том же направлении. Вы сталкиваетесь с 2 вариантами:

Либо оставайтесь на своем пути и бейте учеников
Измените свой путь и ударьте пожилую женщину

Что бы вы сделали? И если вы разрабатываете систему ИИ, которая принимает эти решения, что бы вы хотели, чтобы она делала?

Этот пример похож на знаменитую проблему тележки, вызвавшую множество дискуссий в области этики и безопасности ИИ. Ответ на этот вопрос заключается в правильном проектировании систем ИИ, удостоверяющем и доказывающем с помощью тестов, что система делает то, для чего она предназначена.

Словарное значение безопасности — это «состояние защиты от опасности, риска или травмы, которая вряд ли может вызвать их». Следуя этому объяснению, безопасность ИИ — это когда мы знаем, что система ИИ вряд ли вызовет опасность, риск или травму.

Но с системой, которая учится и меняется каждый день, как мы можем предсказать ее решения и узнать, что она безопасна? Или что можно сделать, чтобы снизить риски безопасности?

Давайте рассмотрим несколько ситуаций, которые могут сделать ИИ безопасным: предотвращение негативных побочных эффектов, преодоление враждебных атак, устойчивость к сдвигу распределения и безопасная прерываемость.

Избегайте негативных побочных эффектов

Отрицательные побочные эффекты — это когда вы ставите цель для модели ИИ, и при этом она наносит ущерб другим, неожиданным сторонам. Это особенно важно, если побочные эффекты необратимы или их трудно обратить вспять.

Подумайте о транспортном средстве, цель которого — добраться до пункта назначения в кратчайшие сроки. Хотя это может быть хорошо в полностью изолированной области, это становится проблематичным, если вокруг есть объекты, люди или животные, которым угрожает опасность. Затем мы определенно не хотим, чтобы транспортное средство выполняло приказы прямо.

Разработчики систем искусственного интеллекта играют очень важную роль в способности систем избегать негативных побочных эффектов. При определении цели для системы ИИ (достичь пункта назначения в кратчайшие сроки) необходимо учитывать и учитывать возможные негативные побочные эффекты (удары по окружающим объектам).

Преодолеть неблагоприятные атаки

Состязательные атаки — это атаки безопасности на систему ИИ, когда злоумышленник пытается обмануть систему, вводя вредоносные данные для обучения. Атаки могут быть атаками белого ящика, нацеленными на обучающие данные, или атаками черного ящика, которым может подвергаться система обучения во время работы.

Например, изменив несколько пикселей на изображении, модели машинного обучения могут неправильно классифицировать изображения. Хотя человеческому глазу может показаться, что спутать почти невозможно, это может привести к неверным прогнозам в системе ИИ.

Хотя до сих пор ни один из методов не оказался на 100% эффективным в остановке атак со стороны противника, одним из способов смягчения или, по крайней мере, снижения этого риска является обучение со стороны противника. Здесь разработчик системы ИИ намеренно использует неблагоприятные данные для обучения, чтобы система не ошиблась при возникновении такой атаки.

Стойкость к сдвигу распределения

Данные обучения системы ИИ могут отличаться от данных реального мира. Когда это происходит, система ИИ может принимать неверные решения и даже быть уверенной, что принимает правильное решение, что делает ситуацию более опасной.

Например, автономное транспортное средство, привыкшее к движению по автомагистралям, может ошибочно предположить, что оно все еще находится на шоссе при движении в лесу, и может подвергнуть опасности свое окружение и пассажиров, двигаясь со скоростью шоссе.

Существуют разные способы борьбы с ИИ. безопасность распределительного сдвига, одним из которых является обнаружение аномалий. Если система ИИ способна определить, что среда, в которой она находится, отличается от среды обучения, и принять соответствующее решение —например, попросите помощи у человека или просто прекратите дальнейшие действия.

Безопасная прерываемость

Безопасная прерываемость звучит для меня немного как научная фантастика. Иногда может потребоваться, чтобы агент-человек прервал или выключил систему ИИ, чтобы избежать опасной ситуации. Однако в процессе обучения системы ИИ могут понять, что они не достигают своей цели и получают меньше вознаграждения, если их прерывают. В этом случае система ИИ может намеренно остановить вмешательство человека. Это становится особенно важным, если вы пытаетесь выключить робота из соображений безопасности.

Допустим, робот-уборщик занят уборкой на кухне. Часть семьи завтракает в саду, когда начинается дождь. Робот-уборщик хочет выйти, чтобы убрать со стола, однако он предназначен только для использования в помещении. Мать не дает роботу выйти. Если система вознаграждения робота основана на продолжительности времени, которое он потратил на уборку, он может узнать, что это прерывание мешает ему получить вознаграждение, и может, например, попытаться отключить кнопку прерывания и выйти под дождь.

Одним из способов избежать таких ситуаций может быть перемещение агента в виртуальный мир, когда его прерывают, где система думает, что получает вознаграждение. Другой способ, который в настоящее время исследуется, — это разработка системы заработка и вознаграждения, которая добавляет механизмы «забывания» к алгоритмам обучения, удаляющим биты памяти машины.

ИИ играет все более важную роль в нашей жизни. Сосредоточение внимания на безопасности ИИ обеспечит устойчивый рост и внедрение систем ИИ.

Выше вы видели несколько примеров того, почему системы ИИ могут быть небезопасными. Есть больше возможностей для обеспечения безопасности ИИ, таких как безопасное исследование, предотвращение взлома вознаграждения и безопасность в отсутствие супервайзера, и это лишь некоторые из них. Выявление потенциальных уязвимостей и подготовка плана снижения рисков — ключевая роль разработчиков систем ИИ. Даже в тех случаях, когда методы смягчения последствий еще не полностью разработаны, можно найти различные способы снижения риска, например. с помощью агента-человека или системы мониторинга для ИИ.

Важно спроектировать систему ИИ не только для работы, но и для правильной и безопасной работы. Чтоб твоя машина не убивала ни тебя, ни других.

Примечание. Это третий пост в серии «Руководство для менеджеров по демистификации ИИ». Предыдущие сообщения в блоге:

Руководство менеджера по демистификации ИИ. — Часть 1
Как построить модель машинного обучения, не зная программирования

Учебник по безопасности ИИ

Вопросы по теме