Получено с https://arxiv.org/abs/1811.12231

Резюме

Одно из широко распространенных предположений заключается в том, что CNN объединяют низкоуровневые функции, такие как края, со все более сложными формами, такими как колеса, автомобильные окна, до тех пор, пока такой объект, как автомобиль, нельзя будет легко классифицировать. Они назвали это гипотезой формы. Эта гипотеза подтверждается рядом эмпирических данных. Методы визуализации, такие как деконволюционные сети, часто выделяют части объекта в высокоуровневых функциях CNN.

CNN по-прежнему могут отлично классифицировать текстурированные изображения, даже если глобальная структура формы полностью разрушена. И наоборот, стандартные CNN плохо распознают эскизы объектов, в которых формы объектов сохранены, но отсутствуют все подсказки текстуры. Два исследования показывают, что локальной информации, такой как текстуры, на самом деле может быть достаточно для «решения» распознавания объектов ImageNet, линейный классификатор поверх представления текстуры CNN практически не дает потери производительности классификации по сравнению с исходной производительностью сети. Назовем это текстурной гипотезой.

Разрешение этих противоречивых гипотез поможет лучше понять решения нейронной сети.

Чтобы количественно оценить предвзятость текстуры и формы как у людей, так и у CNN, они использовали передачу стиля для создания изображений с конфликтом сигналов текстуры и формы, таких как форма кошки с текстурой слона. Всего проведено 48 560 психофизических испытаний с участием 97 наблюдателей. Эти эксперименты предоставляют поведенческие доказательства в пользу гипотезы текстуры: кошка с текстурой слона является слоном для CNN и по-прежнему кошкой для людей.

Сильные стороны

Авторы предложили новый способ мышления о том, как работает машинное распознавание, и в итоге вы пришли к этой новой интуиции, что представление на основе формы может быть более полезным, чем представление на основе текстуры для более надежного вывода.

Слабые стороны

Они не упомянули, как это может быть распространено на другие проблемы/наборы данных.

Примечания

Все психофизические эксперименты проводились в хорошо контролируемой психофизической лаборатории. В каждом испытании участникам предъявляли квадрат фиксации на 300 мс, после чего в течение 300 мс предъявляли изображение стимула. После изображения стимула мы представили полноконтрастную маску розового шума (форма спектра 1/f) на 200 мс, чтобы свести к минимуму обработку обратной связи в зрительной системе человека и тем самым сделать сравнение с CNN с прямой связью максимально справедливым.

Код

https://github.com/rgeirhos/texture-vs-shape