Прекратите запускать распознавание лиц, пока не прочтете это

Сегодня существует действительно большая проблема с использованием распознавания лиц на основе машинного обучения с видео. Фактически, это может быть шоу-пробка.

Распознавание лиц может быть мощным инструментом, чтобы узнать, кто снимается в видео. Он отлично подходит для того, чтобы отмечать актеров, политиков и спортсменов в миллиардах часов медиа-контента, который доступен нам каждый день. Он также отлично подходит для поиска подозреваемых на видеозаписи с камеры видеонаблюдения или для поиска родственников на старых семейных фотографиях.

Большинство из нас не возражает против того, чтобы за секунду или две можно было распознать лица на фотографии, или нас не беспокоит время обработки, необходимое для поиска людей на фрагменте видео.

Но если вы умножите это на сотни или тысячи активов, вы начнете видеть, что значительное количество времени и ресурсов необходимо посвятить обработке распознавания лиц.

С сегодняшними предложениями машинного обучения как услуги (MLaaS), такими как Google Vision, Microsoft Azure, IBM Watson и т. Д., Вы передаете все свои видеоресурсы на их конечные точки общедоступного API, а взамен получаете некоторые метаданные о том, кто в каком видео и где. Метаданные могут выглядеть так:

{  
   "faces":[  
      {  
         "key":"Al Roker",
         "instances":[  
            {  
               "start":150,
               "end":150,
               "start_ms":5005,
               "end_ms":5005,
               "confidence":0.6983038746995329
            },
            {  
               "start":480,
               "end":660,
               "start_ms":16016,
               "end_ms":22022,
               "confidence":0.6699914024543004
            },
            {  
               "start":780,
               "end":990,
               "start_ms":26026,
               "end_ms":33033,
               "confidence":0.7077699155373681
            }
         ]
      },
      {  
         "key":"Unknown Face 5abc120a9b25d163",
         "instances":[  
            {  
               "start":60,
               "end":60,
               "start_ms":2002,
               "end_ms":2002
            }
         ]
      }
   }

Итак, модель по распознаванию лиц или распознаванию знаменитостей нашла Эла Рокера на некоторых видеозаписях с отметками времени, где он появляется.

Но он также обнаружил неизвестное лицо. Если это правильно реализовано в пользовательском интерфейсе, следующим шагом должен быть человек, который увидит это, чтобы пометить этого неизвестного человека. Это, в свою очередь, должно обучить модель распознавания лиц.

Этот последний шаг сам по себе является проблемой для текущих предложений MLaaS, но на самом деле он становится еще хуже.

Предположим, что эти данные представляют собой сотни или тысячи часов видео (очевидно, что в реальной жизни было бы намного больше данных), и допустим, что я прошел через это и научил их, кто все эти неизвестные лица. Мне все равно придется перезапустить все это видео с недавно обученной системой распознавания лиц, чтобы воспользоваться преимуществами обучения всех этих новых людей.

Мы также можем перевернуть проблему с ног на голову. Допустим, я получил фотографию нового подозреваемого или осужденного преступника. Я хотел бы увидеть, появляется ли этот человек в миллионах часов видеоматериалов с камер наблюдения или телекамер, которые я собираю как правоохранительный орган, и уже проверял системы распознавания лиц. Используя современные инструменты MLaaS, мне нужно сначала обучить модель распознавания лиц с новым лицом, а затем повторно запустить все эти миллионы часов отснятого материала через только что обученную модель.

Это ограничители шоу, потому что просто неэкономично повторно запускать распознавание лиц каждый раз, когда у вас есть какое-то новое обучение, которым вы хотите воспользоваться.

Вот почему моя компания Machine Box недавно выпустила функцию распознавания лиц Facebox под названием Faceprint.

Преимущество этой функции заключается в том, что вам нужно запускать все видеоматериалы через Facebox только один раз. После того, как вы его обработали, вы можете задним числом применить любой тренинг по распознаванию знаменитостей, какой захотите. Вы можете продолжать обновлять свою модель, обучать ее новым людям, показывать ей новые фотографии и исправлять ошибки столько раз, сколько захотите, и так часто, как захотите, и никогда не придется повторно обрабатывать видео, чтобы воспользоваться всеми преимуществами. этого нового обучения.

Представьте себе, что означает на секунду. Вы можете продолжать применять новые модели распознавания знаменитостей к своему видео, без повторной обработки.

Это избавит вас от необходимости быть привязанным к предварительно обученной модели распознавания знаменитостей, которая может быть некачественной на момент обработки или просто не иметь всех известных людей, которых вы хотели бы включить.

С Faceprint больше не нужно ждать, пока появится идеальная модель распознавания лиц.

Как это работает?

Faceprint работает, предоставляя вам уникальный хэш каждого лица, обнаруженного Facebox. Затем вы можете сохранить этот хеш вместе с возвращаемыми метаданными о том, кто это лицо. Позже вы можете обучить Facebox новым знаменитостям, загрузить файл состояния с предварительно обученными лицами или исправить существующую модель. Вместо того, чтобы снова запускать все видео через Facebox, вам просто нужно присвоить ему этот хэш (или Faceprint), а взамен вы получите тег из обновленной модели. Вы можете выполнить всю эту операцию со всей своей базой данных Faceprints невероятно быстро (намного быстрее, чем обработка самих изображений). Вы можете запускать задачу вручную, когда у вас загружен новый файл состояния Facebox, или чаще, когда ваши пользователи весь день отмечают неизвестные лица, чтобы убедиться, что ваша база данных актуальна.

Эта новая функция Facebox сэкономит вам огромное количество времени и денег, уменьшив необходимость постоянной обработки. Как вы знаете, Facebox работает локально, поэтому вам не нужно когда-либо загружать видео в Интернет, чтобы воспользоваться преимуществами современного распознавания лиц.

Что такое Machine Box?

Machine Box помещает современные возможности машинного обучения в контейнеры Docker, поэтому разработчики, такие как вы, могут легко включить обработку естественного языка, распознавание лиц, распознавание объектов и т. Д. В свои собственные приложения очень быстро.

Ящики созданы для масштабирования, поэтому, когда ваше приложение действительно набирает обороты, просто добавьте больше ящиков по горизонтали, до бесконечности и дальше. Да, и это намного дешевле, чем любой из облачных сервисов (а они могут быть лучше)… и ваши данные не покидают вашу инфраструктуру.

Поиграйте и дайте нам знать, что вы думаете.

Прекратите запускать распознавание лиц, пока не прочтете это