Аннотирование видео в реальном времени с помощью модели глубокого обучения

Модели глубокого обучения позволяют вам добавлять аннотации к видеопотоку в реальном времени, хотя это сложная задача. Чтобы сделать это возможным, вам может понадобиться эффективный механизм или хороший дизайн системы. Здесь я продемонстрирую один из способов заставить это работать. Предлагаемый метод можно использовать для маркировки каждого кадра видео. Затем метки можно вычислить с помощью любой тяжелой модели глубокого обучения. В качестве примера я использую модель оценки возраста лица, чтобы аннотировать обнаруженные лица (ограничивающие рамки) и предполагаемый возраст людей в каждом кадре в потоковом видео в реальном времени.

Стоимость процесса вывода как в моделях обнаружения лиц, так и в моделях оценки возраста может быть выше, чем создание кадров с веб-камеры. С помощью алгоритмов визуального отслеживания, таких как Kernelized Correlation Filter, TLD и MedianFlow, мы можем скрыть задержку от видеокадра как ввода глубокой модели и результата вывода, сгенерированного моделью. Мы одновременно обрабатываем алгоритм визуального отслеживания и глубокий вывод модели. Таким образом, каждый видеокадр аннотируется информацией о ограничивающей рамке, созданной либо на основе визуального отслеживания, либо на основе глубокой модели. Если ограничивающая рамка, сгенерированная алгоритмом визуального отслеживания, отклоняется от фактического местоположения, мы обновляем аннотированные результаты модели глубокого обучения, чтобы изменить начальное положение ограничивающей рамки с помощью алгоритма визуального отслеживания. Этот метод сочетает в себе аннотированную информацию с алгоритмом визуального отслеживания и моделью глубокого обучения. Делая это, мы решаем проблему задержки для аннотирования видео в реальном времени, и инфраструктура может быть применена к любой модели аннотирования видео с глубоким обучением… Ну, более конкретно, под любой моделью здесь я подразумеваю, что она может быть применена к любой высокопроизводительной модели. модели затрат времени, такие как обнаружение объектов на основе видео, сегментация видео и т.д.

Вы можете прочитать полную запись в блоге на IBM Developer.

Первоначально опубликовано на https://developer.ibm.com.

Аннотирование видео в реальном времени с помощью модели глубокого обучения

Вопросы по теме