Под компьютерным зрением понимается концепция, позволяющая машине понять данное изображение или видео. Слово понимать здесь означает обозначение присутствующих вещей и окружающей среды. Это включает в себя основные проблемы, такие как обнаружение, распознавание и локализация объектов (концепция чрезмерного подвига).
Компьютерное зрение имеет такие приложения, как беспилотные автомобили, системы распознавания лиц, роботов-гуманоидов, навигационные системы, обнаружение болезней в медицинских изображениях и многое другое.
Глубокое обучение показало беспрецедентные результаты почти во всех приложениях компьютерное зрение. Причина таких результатов в том, что идея глубокого обучения в некоторой степени сопоставима с методом, который люди используют для решения той же проблемы. Алгоритмы пытаются понять изображение, начиная читать их на очень мелком уровне (в их первых нескольких слоях), а затем извлекают сложные функции и таким образом идентифицируют объекты (для которых сеть обучена) на изображении. В данном случае сложные элементы означают края, границы и цвета. Другими словами, сеть глубокого обучения декодирует изображения с более низкого уровня на более высокий и, таким образом, понимает содержание представленного изображения. Этот вид сети сначала извлекает значимые особенности на более ранних уровнях и идентифицирует или классифицирует (в зависимости от необходимости) объекты на более поздних уровнях, как показано на рисунке 1 (как показано здесь). Эта задача в основном решается сверточными нейронными сетями (CNN).

CNN могут эффективно обрабатывать большие 3D-изображения RGB для обнаружения объектов, а также медицинские изображения в градациях серого для обнаружения аномалий. Эти архитектуры оказались очень успешными в обнаружении заболеваний с помощью МРТ и компьютерной томографии. Обработка медицинских изображений также является частью компьютерного зрения, которому глубокое обучение принесло огромную пользу. Сети CNN не ограничиваются только изображениями, они также могут применяться к тексту для кодирования каждого слова с использованием быстрого кодирования, акустического моделирования при распознавании речи и т. Д.

Несмотря на все это, у CNN есть недостаток, заключающийся в том, что они не учитывают пространственную ориентацию объектов. Они эффективно распознают объекты на одних слоях, но не могут обнаружить взаимосвязь между ними. Благодаря этому перевернутое лицо (с глазами внизу) также будет обнаружено как лицо.

Недавно один вариант (или, скажем, лучшая версия CNN), капсульные сети предложен Хинтоном, который преодолевает этот недостаток CNN. Капсульные сети предназначены для соединения пространственных ориентаций объектов на изображениях и, таким образом, помогают лучше понять данное изображение. Как следует из названия, этот тип сети состоит из капсул (CNN меньшего размера), и каждая капсула определяет наличие какой-либо особенности на изображении. Эти капсулы соединены между собой. При передаче информации на следующие слои также передается дополнительная информация (о соединении капсул). Эти капсулы отвечают за пространственную ориентацию объектов на изображении. Эти ориентации узнаются не только с особенностями, но и с помощью капсульных сетей.

Давайте посмотрим, заменит ли капсульная сеть полностью CNN, или капсульные сети также будут иметь некоторые укорочения .. !!