Недавние достижения подняли область искусственного интеллекта (ИИ) на очень высокие высоты. А значительный рост цифровых данных также побудил разработчиков больше сосредоточиться и работать над различными задачами, связанными с задачами компьютерного зрения.

Некоторыми задачами компьютерного зрения являются классификация объектов, обнаружение объектов или сегментация объектов. Наиболее распространенной и простой в реализации из этих задач является классификация объектов. Современные архитектуры в области глубокого обучения помогли достичь результатов человеческого интеллекта в задачах классификации объектов.

Но в этом посте мы сосредоточимся на другой задаче под названием «Обнаружение объектов», которая состоит из двух подзадач, а именно «Локализация объектов» и «Классификация объектов». Локализация объекта относится к созданию ограничивающей рамки вокруг объекта, а также к использованию классификации для классификации этого обнаруженного объекта в определенный класс.

Изображение выше является примером локализации объекта, здесь мы просто создаем ограничивающую рамку вокруг нескольких разных объектов, таких как автомобили, дети, пешеходы.

Движение к идее для ее реализации

Локализация объекта может быть разделена на 2 типа:

  1. Локализация объекта на изображениях, содержащих только один объект.
  2. Локализация объекта на изображениях, содержащих несколько объектов.

Задача 1 очень проста и может быть выполнена с помощью следующих шагов:

Шаг 1 → Создайте модель глубокого обучения (используя слои свертки для лучшей работы с изображениями), которая извлекает функции из изображений.

Шаг 2 → Эта модель будет иметь 4 выхода, связанных с x, y, w, h, как (x, y), представляющие верхний левый угол ограничивающей рамки, а w и h как ширина и высота ограничивающей рамки. .

Шаг 3 → Теперь начинается обучение модели.

Шаг 4 (необязательно) → Вы также можете добавить другой вывод, относящийся к классу объекта, обнаруженного на изображении. Этот выходной слой будет иметь выходную активацию как softmax, чтобы мы могли получить вероятность каждого выходного класса и выбрать тот, который имеет наибольшую вероятность.

Если вы правильно выполнили все шаги с 1 по 3, то вы подготовили хорошо выполняющуюся задачу локализации одного объекта, и если вы также добавили еще один шаг 4, то теперь вы обнаруживаете и распознаете изображение одного объекта.

Второй отлично зарекомендовал себя в задачах обнаружения или распознавания отдельных лиц. Создание пользовательского распознавания лиц для личной безопасности системы или просто игра с ним.

Примечание : → Это был мой первый пост , поэтому , возможно , я не могу правильно поделиться своими мыслями , пожалуйста , дайте мне знать ваши отзывы об этом в комментариях . Любое руководство также будет полезно.

Спасибо !!