Краткий обзор

Компьютерное зрение - это люди, которые пытаются научить компьютеры видеть. Это видение может относиться к пониманию сцен, распознаванию объектов, построению 3D-моделей, избеганию препятствий и навигации и так далее. Сегодня вокруг нас множество применений компьютерного зрения. Такие как робототехника, дополненная реальность, виртуальная реальность, сканирование штрих-кодов и QR-кодов, сканирование отпечатков пальцев и съемка панорам с вашего смартфона. Однако компьютерное зрение стало одной из основных тем в отраслевых технологиях. Сегодня с помощью методов машинного обучения, компьютерных алгоритмов и оборудования для обработки графики технологии компьютерного зрения успешно применяются в реальных приложениях, таких как бытовая электроника и промышленные приложения. Согласно общему определению, любая законченная система компьютерного зрения объединяет два основных компонента: технические средства, то есть аппаратные средства, и прикладную математику для обработки информации и алгоритмы. Несомненно, эффективная производительность была достигнута благодаря быстрому развитию таких аппаратных технологий, как ускорители 3D-графики с мощными возможностями обработки. Параллельно этому способствовала разработка многофункциональных алгоритмов высокого уровня на основе технологий машинного обучения, таких как искусственные нейронные сети и интеллектуальные методы обучения. Сравнение разницы между зрительной системой человека и зрительной системой компьютера; Для компьютеров изображения - это просто данные в виде массива чисел (данные изображения цветов будут представлять собой 3 массива чисел, каждый из которых варьируется от 0 до 255). Эти числа мы называем значениями пикселей, а комбинация пикселей создает изображение. Но, напротив, человеческая зрительная система способна выполнять более сложную и семантическую интерпретацию того, что она фиксирует. Следовательно, для интерпретации визуальных подписей у компьютеров обычно есть четыре основных подхода.

Признание; В основном это технология распознавания и понимания объектов на изображениях (и видео). Система распознавания человека способна без особых усилий обрабатывать несколько объектов. Даже если объекты видны в разных точках обзора, в разных масштабах или даже частично закрыты из поля зрения. Но для компьютеров это очень сложная задача. На сегодняшний день разработано множество методов понимания и распознавания предметов разного уровня сложности. Благодаря методам машинного обучения для данной фотографии возможности зрения расширились от распознавания объектов до разработки семантических и геометрических отношений между ними. Эти развитые отношения можно использовать для выполнения таких задач, как реляционное мышление и визуальное понимание. В машинном обучении мощная подкатегория, называемая глубоким обучением и искусственными нейронными сетями, активно используется для решения этих задач, близких к человеческой. Типы нейронных сетей, такие как сверточные нейронные сети, рекуррентные нейронные сети и их комбинации, использовались для разработки этих удивительных квалифицированных моделей и алгоритмов. За последнее десятилетие в области распознавания и разновидностей объектов был проведен и опубликован ряд выдающихся исследовательских работ. В ближайшем будущем ожидается развитие этой области, которая превзойдет возможности человеческого зрения.

Реконструкция; Создает визуальные модели (3D) из данных визуальных данных с различных точек зрения. Это можно легко объяснить с помощью карт Google или приложения камеры вашего смартфона. В картах Google сферические панорамы и 3D-модели объектов (мест) создаются с использованием данных 2D-изображений, снятых с разных точек обзора и под разными углами. Эти захваченные данные затем вводятся в алгоритмы, которые сопоставляют функции между визуальными данными и затем реконструируют визуальные модели. Захват движения - это еще одно применение методов визуальной реконструкции, представляющее собой процесс записи различных типов данных о движении. Это включает в себя визуальные датчики, такие как типы камер, и другие сенсорные данные, такие как IMU. Благодаря развитию различного оборудования для технического зрения, такого как камеры глубины, оборудование стереозрения и камеры 360, эти методы стали применяться во многих различных областях. Моделирование реконструкции используют для создания моделей местности и окружающей среды. Они известны как 3D-карты, которые в основном используются в робототехнике и беспилотных навигационных целях, таких как одновременная локализация и отображение (SLAM).

Регистрация; представляет собой процесс преобразования разных наборов данных в одну систему координат. Это могут быть данные нескольких изображений или различные носители зрения или любые другие сенсорные данные (LIDAR) с различных точек зрения. Основные шаги регистрации изображения можно перечислить как обнаружение признаков, сопоставление признаков, проектирование функции сопоставления, преобразование и повторную выборку. В литературе доступно несколько типов алгоритмов. Такие как методы, основанные на интенсивности и на основе характеристик, и методы пространственной и частотной области (согласно Википедии). Подход компьютерного зрения к регистрации успешно применяется во многих различных областях и приложениях. Регистрация медицинских изображений - важное приложение и ценный помощник для медицинских экспертов, которые используют данные медицинского зрения для анализа и обнаружения изменений или мониторинга (мониторинг опухолей). Изображения, полученные с помощью одного метода, такого как МРТ, КТ, могут не предоставить всю необходимую информацию. Требовалось объединить информацию, полученную с помощью других методов, также для улучшения получаемой информации. В наши дни беспилотные автомобили - огромная тема. Эти беспилотные автомобили должны иметь возможность отслеживать пешеходов, понимать поведение других транспортных средств при движении, понимать дорожные знаки, такие как светофоры, и обнаруживать полосы движения для безопасного и точного вождения. Компьютерное зрение и подход к регистрации играют огромную роль в решении такой задачи. В таких сложных системах в основном используются методы машинного обучения при обработке и принятии решений. В мобильных приложениях вроде Snapchat фильтры для селфи являются более привычным повседневным приложением регистрации компьютерного зрения.

Реорганизация; можно назвать имитацией перцептивной организации человеческого зрения. В компьютерном зрении реорганизация обычно означает группировку и сегментацию реконструкций данных зрения. Но в контексте машин это известно как обучение без учителя (учиться на немаркированных данных, как дети учатся сами, без явного обучения). Традиционно модели компьютерного зрения обучаются с помощью огромного количества предварительно помеченных данных, но при неконтролируемом обучении они получают данные без ярлыков, и каким-то образом компьютерная модель группирует их или реорганизует их таким образом, который имеет смысл. Это можно объяснить недавней исследовательской работой, проведенной лабораторией робототехники Google, которая была опубликована в их исследовательском блоге. В этой работе компьютерное зрение используется для выполнения задачи захвата рукой робота. Захватывающие задачи очень распространены в промышленных приложениях. Но эти промышленные роботы явно запрограммированы на выполнение определенной работы (схватывать определенные объекты определенным образом), и они хорошо питаются хорошими сенсорными данными. Но выполнить захватывающую задачу для робота без каких-либо явных программ и с использованием только визуального зрения, как это делают люди, стало довольно сложно. В лаборатории робототехники Google они тренируют руки роботов, чтобы они могли подбирать предметы различного типа и формы, которые робот не видел и не испытывал раньше. Эти роботы не распознают захватывающий объект как яблоко или чашку, вместо этого они просто пытаются схватить объект, но программа ничего не описывает об объекте, но учится схватывать его, испытывая хватание. С опытом он учится хватать разные предметы, например, если объект губчатый. он узнает, что вы не можете подобрать его, хватаясь, но вы должны ущипнуть его. Как и в случае с программой, программа учится выполнять и другие действия, а при достаточном обучении и приобретенном опыте это может приблизиться к человеческим возможностям. Компьютерное зрение работает здесь в форме сверточных нейронных сетей и не работает по отдельности. В процессе обучения используются алгоритмы обучения с подкреплением. Также есть много других важных и полезных приложений.

Он обсудил очень простой и краткий обзор компьютерного зрения и подходов к ним. Если мы посмотрим на последние разработки и проделанную работу, то использование методов машинного обучения, включая методологии глубокого обучения, привело к огромному успеху. Благодаря продолжающимся исследованиям и приложениям во многих различных областях, область компьютерного зрения продолжает развиваться и улучшаться с каждым днем.