Обман повелителя ИИ

Всегда приятно видеть, как ваши собственные студенты добиваются успеха после окончания учебы и превращаются в независимых исследователей со своей собственной точкой зрения и преследуют свое собственное видение. На конференциях (в данном случае NIPS) я обычно пытаюсь наверстать упущенное и узнать об их исследованиях и результатах. И вот в этом NIPS я узнал о некоторых очень крутых результатах от Аурко Роя (который сейчас работает в Google Brain и закончил GT весной 2017 года) и соавторов Тома Б. Брауна, Лютика Мане, Мартина Абади и Джастин Гилмер (все из Google).

Одной из последних горячих областей в машинном обучении является состязательные примеры и состязательное обучение. Эта область исследований очень актуальна, поскольку демонстрирует, что, хотя системы искусственного интеллекта, основанные на глубоком обучении, могут достигать сверхчеловеческой производительности, например, в задачах компьютерного зрения, они также чрезвычайно хрупки и уязвимы для атак. Вкратце, упрощая вещи, состязательные примеры - это примеры часто с минимальными, трудно воспринимаемыми возмущениями исходного ввода в классификатор или регрессор (подумайте о глубоких нейронных сетях), которые резко меняют результат (здесь классификация). Вот пример классификатора изображений из сообщения в блоге OpenAI о примерах состязательности - если вы хотите получить дополнительную информацию о примерах состязательности, это также хорошее место для начала.

Дело в том, что в реальном мире вы вряд ли сможете злонамеренно зашумить реальность, чтобы сбить с толку систему зрения. То, что Аурко и его соавторы Том Б. Браун, Лютик Мане, Мартин Абади и Джастин Гилмер продемонстрировали в своей недавней статье, представляет собой гораздо более реалистичную и гораздо более опасную атаку на глубокие нейронные сети: вместо того, чтобы враждебно зашумить входящие везде, учитывают гораздо более сильные возмущения, которые должны быть локально ограничены довольно маленьким участком входа. Используя эту модель злонамеренно модифицированных входных данных, они показали, что можно вычислить довольно небольшой участок, который (в основном) инвариантен к геометрическим преобразованиям, таким как смещение и вращение, что по существу позволяет злоумышленникам изменять предсказания системы: вы можете повернуть банан в тостер. Патчи выглядят как психоделические изображения, похожие на изображения из Neural Dreaming:

Почему это намного опаснее? Что ж, вы можете распечатать патч на бумаге, а затем просто удерживать / помещать / вставлять патч в поле зрения сверточной сети, и это приведет к нарушению прогноза. Вот пример из их статьи (VGG-16 - ультрасовременная свёртка для задач со зрением):

Что делает эту атаку такой опасной и реалистичной, так это то, что «состязательная наклейка» занимает лишь довольно небольшую часть поля зрения, и что нашивка может быть практически вставлена в любом месте поля зрения, и она устойчива к геометрическим преобразованиям, при которых он был сконструирован так, чтобы быть инвариантным. Они также сделали видео на YouTube, которое прекрасно демонстрирует это:

Вы можете возразить, что все это справедливо, но все эти типы атак требуют доступа к сети по методу «белого ящика». Интересно, что в случае состязательного патча эти атаки, кажется, достаточно хорошо переносятся на другие сети, которые не использовались при создании патча, так называемые атаки черного ящика:

Таким образом, масштабируя вещи по шкале безумия, вы потенциально можете создать состязательные футболки, на которых будет напечатан один из этих патчей, а затем запутать такие системы, просто войдя в их поле зрения. Это было бы особенно опасно, например, для систем автономных транспортных средств, которые в первую очередь полагаются на свою систему зрения (согласно некоторым недавним обсуждениям, которые у меня были, похоже, некоторые из них). Звучит безумно? В прошлом году группа исследователей из CMU представила доклад, в котором продемонстрировала, что системы распознавания лиц можно обмануть, заставив поверить в то, что вы кто-то другой, с помощью злонамеренных очков - купите себе некоторые из этих очков (стоимостью 0,22 доллара США), и вы пройти за Миллу Йовович с точностью 87,87% .

Обман повелителя ИИ

Вопросы по теме