Глубокое обучение для распознавания объектов/обработки изображений — одно из величайших технологических чудес последних лет — от «сверхчеловеческой точности» в категоризации объектов, мечтательных роботов-художников до зловещего крупномасштабного наблюдения. Однако он терпит неудачу всякий раз, когда видит состязательное изображение: изображение, которое немного искажено, так что оно остается неизменным для человеческого глаза, но побуждает алгоритм давать неправильный ответ.

Для технолога враждебные примеры представляют собой угрозу: автономные автомобили могут попасть в аварию, роботы могут устроить беспорядок, если их представить. Исследователи продемонстрировали более чем одним способом, что это возможно не только в компьютере, но и в физическом мире.

Однако для когнитивного ученого состязательные примеры — это возможность лучше понять визуальное познание. Почему мы воспринимаем изображения в левом и правом столбцах как одинаковые? Один из возможных ответов состоит в том, что они сводятся к одному и тому же представлению.

Визуальное упрощение

Не секрет, что люди упрощают вещи. Пикасо знал это уже в 1945 году, когда нарисовал знаменитую серию абстракций быка, еще до рождения современных когнитивных наук. Фигурки из палочек должны были существовать тысячи лет назад.

Исходя из нашего опыта, естественно связывать упрощение с линиями, но при ближайшем рассмотрении маловероятно, что наша зрительная система представляет объекты с их помощью. Объекты всегда имеют поверхность, а не каркасы. В первый раз, когда ребенок держит карандаш, скорее всего, появляются несоответствующие линии, что очень удивительно, если они являются скрытым представлением в уме ребенка. Линии используются не потому, что они естественны, а потому, что их легче всего рисовать, не усложняя последующие штрихи.

Гораздо более вероятно, что человеческий разум упрощает вещи, уменьшая их. Возьмите приведенную выше фотографию и уменьшите ее до 100×72 пикселей, и мы увидим, почему эти очень разные рисунки могут быть использованы для изображения одного и того же быка: они очень похожи в маленьком масштабе. Способность распознавать мелкие предметы также дает вам эволюционное преимущество, потому что, когда вы видите большого и четкого льва, может быть уже слишком поздно.

Индуктивное смещение

Все модели машинного обучения основаны на некоторых предположениях: линейные классификаторы разрезают мир на области, похожие на улей, машины опорных векторов избегают конфликтов, удерживая противоположные стороны как можно дальше. Этот индуктивный уклон, а не количество данных и применяемых вычислений, лежит в основе алгоритма и определяет, какие проблемы он может решить.

Недавняя революция в распознавании изображений вызвана одним из таких предположений, называемым трансляционной инвариантностью: одни и те же шаблоны перемещаются по изображению, и в каждом месте будет видно, найдут ли они ребро, круг или лицо.

Тем не менее, трансляционная инвариантность не единственная, у эволюции были миллионы лет, чтобы разработать многие другие, такие как инвариантность к цвету, точке зрения, освещению и размеру. Я считаю, что инвариантность масштаба (размера) также позволяет использовать еще один простой, но мощный прием: форма (то, что остается при уменьшении изображения) важнее текстуры (то, что исчезает).

Доказательства этого предпочтения, если оно вообще необходимо, есть повсюду: дети рождаются с нечетким зрением, поэтому все мы сначала учимся распознавать формы. На языке «большие картинки» звучат важнее, чем «мелкие детали». В сумерках мы видим только своими палочками, которые не различают цвета и даже не видят красного света.

Контратака

Вооружившись этим наблюдением, я подозреваю, что простым, но эффективным решением для состязательной атаки является инвариантность к масштабу и уклон в сторону форм. Даже если это не решит всех враждебных ситуаций, очень интересно посмотреть, сможем ли мы воспроизвести еще некоторые аспекты системы человеческого зрения.

Один из способов проверить эту идею — создать классификатор, который делает следующее:

  • Входящее изображение масштабируется до очень маленького размера, например 20x20.
  • Исходное изображение и маленькое изображение классифицируются отдельно двумя нейронными сетями, что приводит к двум наборам вероятностей.
  • Окончательное назначение вероятности рассчитывается по формуле:
    p =α×p_small + (1-α)×p_original
    , где 0,5 ‹ α ‹ 1

Интересно отметить, что в оригинальной статье Szegedy et al. использовал увеличенную версию цифр MNIST (которые изначально представляют собой двухуровневые изображения 20x20). Как видно на подрисунке (c) ниже, увеличенный размер изображения и диапазон значений дают им гораздо больше места для добавления шума к простым цифрам. Если бы они придерживались исходного формата, их статья и последовавшая за ней научная дискуссия были бы совсем другими, что подчеркивает важность, скажем так, мелких деталей.

использованная литература

Сегеди, Кристиан, Войцех Заремба, Илья Суцкевер, Джоан Бруна, Дмитрий Эрхан, Ян Гудфеллоу и Роб Фергус. «Интересные свойства нейронных сетей». препринт arXiv arXiv:1312.6199 (2013 г.).