Распознавание огнестрельного оружия по изображениям и видео в реальном времени с помощью глубокого обучения и компьютерного зрения

1 октября 2017 года заядлый коллекционер оружия и игрок начал стрелять по Концерту Фестиваля урожая на Маршруте 91. Помимо 58 погибших, не менее 851 получили ранения (из них 422 - в результате обстрела). Стрелок покончил с собой примерно после 11-минутной атаки. В его свите находилось 24 легально приобретенных ружья, в основном полуавтоматические винтовки, многие из которых были оснащены отбойником, из-за которого полуавтоматические винтовки стреляли быстро, как автоматические [1].

18 мая 2018 года 8 учеников и 2 учителя были смертельно ранены, а еще 13 получили ранения в результате стрельбы в школе в Санта-Фе, штат Техас. Стрелок держал в руках помповое ружье и револьвер 38-го калибра, как по закону, и серьезно ранил полицейского во время перестрелки позже в тот же день [1].

7 ноября 2018 года 13 человек, в том числе полицейский и преступник, были убиты в результате массового расстрела в Таузенд-Оукс, штат Калифорния. Из легально приобретенного пистолета Glock 21 калибра .45 и магазина большой емкости стрелок произвел около 30 выстрелов и ранил еще 12 пострадавших [1].

По состоянию на 11 ноября 2018 года только в этом году в Соединенных Штатах было зарегистрировано 49 366 инцидентов с применением огнестрельного оружия, в результате которых погибло 12 588 человек и было ранено 24 420 человек, 2449 из которых были подростками и 577 детьми. За последнее десятилетие насилие с применением огнестрельного оружия привело к гибели и ранению десятков тысяч ежегодно - это 100 000 зарегистрированных жертв с 2008 по 2018 год. Записи также показывают, что ежегодно происходит более 400 массовых расстрелов - более одного массовые расстрелы в среднем в день [2].

Согласно исследованию стрелкового оружия 2018 года, гражданские лица США составляют 393 миллиона (около 46 процентов) от общего количества имеющегося у гражданского населения огнестрельного оружия во всем мире, что составляет 120,5 единиц огнестрельного оружия на каждые 100 жителей, в то время как полиция штата и местная полиция США имеют всего 822 000 единиц огнестрельного оружия [ 3]. Огромная разница между огневой мощью гражданских лиц и огневой мощью правоохранительных органов была чрезвычайно непропорциональной в США 21-го века. Многие преступления с применением огнестрельного оружия происходят в зонах наблюдения, однако большинство систем требует сдержанности со стороны человека, поэтому через эти системы наблюдения было зарегистрировано очень мало преступлений. .

Специальная система наблюдения, которая отслеживает использование огнестрельного оружия в штатах в режиме реального времени, используя не человеческую модерацию, а компьютерное зрение, может существенно помочь правоохранительным органам не только в прекращении, но и в предотвращении инцидентов и нападений с применением огнестрельного оружия. В этом отчете исследуются несколько потенциальных технологий и делается вывод об одном единственном решении, протестированном с реальным использованием в контролируемой среде. В следующих разделах отчета «огнестрельное оружие» относится к стрелковому оружию, потенциально принадлежащему гражданским лицам. Ожидается, что аудитория этого отчета будет обладать знаниями об основных алгоритмах машинного обучения и глубокого обучения.

2 Постановка проблемы

Внедрение массового наблюдения в интересах национальной безопасности встречается не редко, поскольку предпринимались многочисленные попытки со стороны Агентства национальной безопасности, а также Федерального бюро расследований. В этом отчете, однако, исследуется только реализация системы наблюдения, которая не связана с незаконным сбором личных данных. Он ориентирован на реализацию модели глубокого обучения обработки изображений и вводит кадры с камер видеонаблюдения из мест, где происходят массовые инциденты с применением огнестрельного оружия.

2.1 Инженерная проблема

Основная инженерная проблема заключается в распознавании и классификации огнестрельного оружия на изображениях и видео в реальном времени. Первый шаг - распознать наличие огнестрельного оружия и отличить содержимое изображения с огнестрельным оружием от содержимого без него. После базового признания решение должно быть способно классифицировать различные классы стрелкового оружия, начиная от пистолетов, винтовок, карабинов, автоматов, штурмовых винтовок и заканчивая ручными пулеметами. Наконец, система должна иметь возможность непрерывного развития, повышая скорость, точность и дополнительные функции.

2.2 Требования

Абсолютно высший приоритет при реализации решения инженерной задачи - точность. Когда на карту поставлены жизни мирных жителей, даже малейшая неверная оценка может привести к трагическим обстоятельствам. Ложноположительный прогноз должен быть менее 10%, а ложноотрицательный - не более 3%. Ложноположительный результат можно легко предотвратить с помощью человеческой модерации; поэтому ложноотрицательные результаты гораздо менее приемлемы, чем ложные срабатывания.

Второй приоритет - скорость обработки решения. Обработка изображений - это очень трудоемкая и ресурсоемкая задача. Для обработки изображений и видео в реальном времени требуется высокооптимизированное решение, работающее на чрезвычайно мощных машинах. Поскольку большинство видеоматериалов CCTV содержат кодек с частотой 25 кадров в секунду, время обработки изображения должно быть менее 0,04 секунды.

В-третьих, система должна быть способна обрабатывать высокую пропускную способность, поскольку может поступать большое количество запросов на обработку, поступающих из разных источников. Реалистичным требованием является возможность параллельного вычисления нескольких изображений.

Наконец, система должна быть модульной и простой для реализации в большом масштабе в различных средах. Его должно быть так же легко реализовать на полях средней школы, как и на улицах делового центра Манхэттена.

3 Решения

Обычно существует два разных подхода к обнаружению объектов изображения - классическая математическая модель и модель машинного обучения. В этом разделе основное внимание уделяется подходу машинного обучения и исследуются три вида потенциальных решений глубокого обучения для распознавания и классификации огнестрельного оружия на изображениях и видео.

Обычно существует два разных подхода к распознаванию объектов машинного обучения в изображениях и видео - классификация изображений и обнаружение объектов. На Рисунке 1 ниже изображение слева представляет классификацию изображений, а изображение справа представляет обнаружение объекта [4].

3.1 Фреймворки обнаружения объектов

Обучение точным моделям машинного обучения, способным локализовать и идентифицировать несколько объектов на одном изображении, остается большой проблемой в области обработки изображений и компьютерного зрения [5]. Однако существует множество фреймворков для обнаружения объектов, которые позволяют быстро создавать прототипы и обучаться с помощью готовых шаблонов и функций, не беспокоясь о точной реализации методологий машинного обучения. В этом разделе основное внимание уделяется двум различным фреймворкам: API обнаружения объектов TensorFlow и API глубокого обучения DeepDetect.

3.1.1 API обнаружения объектов TensorFlow

TensorFlow - это среда машинного обучения с открытым исходным кодом для высокопроизводительных математических вычислений. Его гибкая архитектура позволяет быстро развертывать сервисы на различных платформах (CPU, GPU, TPU) [6].

API обнаружения объектов TensorFlow - это платформа с открытым исходным кодом, построенная на основе TensorFlow, которая упрощает создание, обучение и развертывание моделей обнаружения объектов. Модели могут получать изображения в качестве входных и выходных категорий, достоверности и согласованной ограничительной рамки вокруг обнаруженного объекта.

Можно обучать целевые модели на основе уникальных наборов данных и генерировать результаты прогнозов, используя такую модель. На рисунке 2 ниже показано, как работает API при использовании модели, обученной с использованием ежедневных объектов [6].

Как видно из рисунка, гуманоидные фигуры распознаются с высокой степенью достоверности, а парашют ошибочно идентифицируется как воздушный змей. Это связано с тем, что модель не была обучена на наборе данных, который включает парашюты. Вместо этого модель нашла ближайший объект, который смогла распознать. Однако он правильно нарисовал ограничительную рамку вокруг парашюта. Благодаря быстрому обучению на приличном наборе данных по различным типам огнестрельного оружия API TF OD может быть чрезвычайно мощным.

Преимущество использования этого API заключается в том, что TensorFlow - одна из наиболее зрелых платформ машинного обучения с открытым исходным кодом, обладающая высокой эффективностью как в обучении, так и в обработке, с последовательной поддержкой и документацией от ее владельца продукта, Google. Однако продолжающееся развитие - это палка о двух концах. Постоянные исправления для этой платформы означают меньше уязвимостей и более надежную систему, но быстрые обновления часто приводят к более устаревшей базе кода. Следовательно, он больше подходит для быстрого прототипирования с коротким сроком выполнения, чем для крупномасштабного проекта, который будет постоянно развиваться и развертываться в долгосрочной перспективе. [6]

3.1.2 DeepDetect API глубокого обучения

DeepDetect - это API машинного обучения, написанный на C ++ 11. Он полагается на внешние библиотеки машинного обучения через очень общий и гибкий API. Этот API работает на Caffe, Caffe2, XGBoost, TensorFlow, T-SNE и Dlib. Ниже в Таблице 1 представлена матрица сравнения решений о том, какую библиотеку выбрать в качестве фоновой среды. Каждая библиотека имеет свои собственные функции, совместимые с этим API. Полученная оценка: 1 за совместимую функцию и 0 за несовместимую. [7]

Поскольку обучение, прогнозирование, классификация, обнаружение объектов и сегментация одинаково важны для нужд этого проекта, это не взвешенная матрица решений. Из матрицы можно сделать вывод, что Caffe - лучший выбор.

Caffe - это среда глубокого обучения, аналогичная TensorFlow в рабочих процессах и конвейерах обслуживания. Он разработан Berkeley AI Research (BAIR). Одним из явных преимуществ реализации DeepDetect в Caffe является ее скорость. Как видно на рисунке 3 ниже, модели, обученные на наиболее распространенных наборах данных, таких как Res101 и Googlenet, имеют впечатляющее время обработки. [7]

3.2 Маска R-CNN

С тех пор, как Алекс Крижевский, Джефф Хинтон и Илья Суцкевер выиграли ImageNet в 2012 году, сверточные нейронные сети (CNN) стали золотым стандартом классификации изображений. В 2014 г. группа из Калифорнийского университета в Беркли представила область с CNN (R-CNN) с целью обнаружения объектов в качестве расширения классификации изображений [5]. Рисунок 4 ниже демонстрирует конвейер того, как R-CNN функционирует как реализация обнаружения объекта изображения [5].

В 2015 году команда Microsoft Research предложила Faster R-CNN, в которой нужно обучать только одну CNN. Таким образом, Faster R-CNN представляет собой упрощенное решение R-CNN, почти не требующее затрат на региональное предложение. [5]

Mask R-CNN, разработанная Facebook AI Research Group, расширяется от Faster R-CNN, добавляя ветвь для прогнозирования масок сегментации для каждой области интереса (RoI) параллельно с существующей ветвью для классификации и регрессии ограничивающего прямоугольника. Это приводит к сегментации изображения на уровне пикселей. [4]

Есть много реализаций Mask R-CNN. В этот раздел включены две наиболее документированные и поддерживаемые реализации: реализация Matterport на TensorFlow и реализация Facebook Detectron на Caffe.

3.2.1 Matterport TensorFlow

Это реализация Mask R-CNN на Python 3, Keras и TensorFlow. Модель генерирует ограничивающие рамки и маски сегментации для каждого экземпляра объекта на изображении. Он основан на Feature Pyramid Network (FPN) и магистрали ResNet101 [9]. Инструкции по установке понятны, а использование простое. Эта реализация, по-видимому, в основном поддерживается сотрудниками Matterport (компания, занимающаяся созданием трехмерных изображений) и PhilFerriere, бывшим специалистом по ИИ из Microsoft. На рисунке 6 ниже показан пример вывода реализации с использованием модели, обученной на наборе данных COCO.

На основе реализации Matterport Mask R-CNN распознавание огнестрельного оружия и его категоризация могут выполняться одновременно.

3.2.2 Facebook Детектрон

Detectron - это программная система Facebook AI Research, которая реализует различные алгоритмы обнаружения объектов, включая Mask R-CNN. Он написан на Python и работает на платформе глубокого обучения Caffe2 [10]. Реализация чрезвычайно чиста, написана с научной точки зрения и ее легко расширять и поддерживать. На рисунке 7 ниже показан пример вывода реализации с использованием модели, обученной на наборе данных COCO.

3.3.3 Сравнение

На рисунке 8 ниже представлены примеры выходных данных обеих реализаций: Matterport слева и Detectron справа. Оба используют веса, предварительно обученные на наборах данных COCO.

Как видно, основная реализация очень похожа. Итак, обе реализации дают одинаковые результаты. Однако есть некоторые различия в производительности между этими двумя реализациями.

В следующей таблице 2 показаны три отдельных теста, запущенных на Detectron и Matterport в трех схожих средах.

Как видно, Matterport, работающий в Linux, имеет самое быстрое время работы, что означает, что он может лучше справляться с обработкой изображений в реальном времени при наличии подходящего оборудования.

Преимущества Mask R-CNN на Matterport заключаются в гибкости реализации, поскольку это открытый фреймворк без каких-либо ограничений на разработку, которые может принести API. Однако внедрение в уже существующие системы будет неэффективным с точки зрения затрат, поскольку его фактическая функциональность требует больше времени и ресурсов для настройки, чем библиотека API.

3.3 Даркнет ЙОЛО

Модель You Only Look Once (YOLO) рассматривает распознавание объектов как проблему регрессии, а не как проблему классификации. YOLO видит все изображение во время обучения и имеет гораздо лучшую производительность, чем Mask R-CNN [11]. Таким образом, YOLO считается настоящей системой обнаружения объектов в реальном времени.

Darknet - это фреймворк нейронной сети с открытым исходным кодом, который изначально поддерживает YOLO. Он написан на C и CUDA, быстр, прост в установке и поддерживает вычисления на CPU и GPU. Ниже на рисунке 9 показаны два примера выходных данных Darknet YOLO. Слева находится вывод изображения, а справа - снимок экрана с выводом видео.

Одним из явных преимуществ YOLO является то, что он невероятно быстр, а значит, отлично подходит для обработки изображений и видео в реальном времени. На рисунке 10 ниже показана большая разница в эффективности между YOLO v3 и другой широко используемой основой классификации изображений, RetinaNet.

Еще одно преимущество использования YOLO заключается в том, что прогнозы делаются с помощью одной обученной сети, а это означает, что модели можно обучать от начала до конца для повышения точности. YOLO также обращается ко всему изображению при прогнозировании ограничивающих рамок, создавая меньше ложных срабатываний при обнаружении объектов [11].

4 Инженерный анализ

В этом разделе содержится матрица решений по технологиям машинного обучения из раздела решений. Он также содержит документированные практические реализации двух наиболее подходящих технологий, выбранных из матрицы решений.

4.1 Матрица решений

В этом разделе используется взвешенная матрица решений для выбора лучших решений из возможных с помощью инженерного анализа. Матрица учитывает все четыре переменные, упомянутые в разделе требований постановки задачи: точность, скорость, пропускная способность, модульность. Таблица 3 ниже показывает матрицу во всех деталях. Оценки даются по шкале от 0 до 100, с относительной компетентностью по сравнению с другими технологиями, а также с требованиями спецификаций.

Точность была назначена 35% от окончательного веса, поскольку это самый важный фактор в требованиях. Реализация Matterport TensorFlow всех решений машинного обучения имеет высочайшую точность не только потому, что это наиболее развитая система из всех, но и потому, что она может обеспечивать как ограничивающие рамки, так и сегментацию обнаруженного объекта. Используя ту же архитектуру Mask R-CNN, Facebook Detectron по точности находится на втором месте. TensorFlow OD API и DeepDetect API имеют более низкую точность, чем Darknet YOLO, из-за того, что они являются решениями API с ограничениями функций и операций.

Скорость - вторая по величине взвешенная переменная среди требований, составляющая 30% окончательной оценки. Darknet YOLO с его невероятной скоростью получил 100 баллов. Detectron с его самой низкой скоростью получил 50 баллов. TensorFlow OD API и DeepDetect схожи по скорости, получив соответственно 55 и 60 баллов на основе тестов. Matterport Mask R-CNN получил 75 баллов за возможность оптимизации скорости.

Пропускная способность - это переменная с наименьшим весом, поскольку ее можно сильно изменить в зависимости от оборудования. YOLO получил наивысший балл 95 из-за его особой способности сканировать все изображение только один раз. Хотя методы глубокого обучения для сегментации изображений редко обеспечивают поддержку высокой пропускной способности, Matterport Mask R-CNN и TensorFlow OD API получили вторую по величине оценку - 80. Это произошло из-за встроенной в TensorFlow опции обработки с несколькими графическими процессорами. DeepDetect и Detectron получили сравнительно более низкие оценки.

Модульность - последняя переменная, получившая вес 20% от окончательной оценки. Поскольку и TensorFlow, и Caffe демонстрируют отличную модульность, решения, использующие эти фреймворки, получили 90 баллов. DeepDetect и Darknet YOLO, с другой стороны, менее документированы с более легко изменяемой базой кода, но они по-прежнему используются многими профессиональными программными сервисами. . Таким образом, оба получают по 80 баллов.

Как видно из матрицы решений, Darknet YOLO является лучшим решением с окончательной оценкой 84,5, за ним следует Matterport Mask R-CNN с 80,5.

Таким образом, Darknet YOLO и Mask R-CNN будут реализованы как полнофункциональные сервисы для сравнительного анализа.

4.2 Реальная реализация

В этом разделе показаны примеры выходных данных Matterport Mask R-CNN, а также Darknet YOLO при реализации в одной среде. Используемые модели обучаются на одних и тех же наборах данных.

4.2.1 Даркнет YOLO

Darknet YOLO был реализован на MacBook Pro 2018 года, и модель была обучена с использованием предварительно обученных весов COCO, а также изображений определенных категорий. На рисунке 11 ниже представлены выходные данные модели винтовки, обученной с набором данных винтовки из 50 изображений. Соответствующие ограничивающие рамки были созданы вручную вокруг винтовки для каждого из изображений и использованы для обучения.

Изображение патрульных морских пехотинцев США было загружено в модель, и модель успешно обнаружила две из трех винтовок M16 на изображении. Он не смог обнаружить третью винтовку из-за характеристик одиночного сканирования YOLO, что обычно приводит к более высокой скорости и меньшей точности. Фиолетовые прямоугольники представляют гуманоидов, обнаруженных моделью с помощью набора данных COCO. Это можно использовать для анализа угроз в сочетании с обнаружением огнестрельного оружия для будущей работы.

Модель пистолета также была обучена с использованием реализации YOLO со 100 изображениями пистолетов, потому что изображения пистолетов намного проще получить и манипулировать ими. Для тренировочных данных были нарисованы ограничительные рамки не только вокруг пистолета, но и вокруг магазинов и спусковых крючков. Из-за большого объема данных модель пистолета более уверенная и точная. На рисунке 12 ниже показан пример вывода модели пистолета Darknet YOLO.

Как видно из выходных данных примера, красный прямоугольник представляет интерпретацию модели самого пистолета. Голубая рамка представляет собой интерпретацию журнала, а фиолетовая рамка представляет руку.

И модель винтовки, и модель пистолета затратили менее 0,1 секунды на обработку каждого изображения. Это хорошая демонстрация того, как модель можно использовать для быстрого анализа случаев использования огнестрельного оружия в видеороликах.

4.2.2 Маска Маттерпорта R-CNN

Matterport Mask R-CNN был реализован на MacBook Pro 2018 года, и модель была обучена с использованием предварительно обученных весов COCO, а также изображений определенных категорий. На рисунке 13 ниже представлены выходные данные модели винтовки, обученной с использованием набора данных винтовки из 50 изображений. Соответствующие контурные маски были созданы вручную вокруг винтовки для каждого из изображений и использованы для обучения.

Изображение патрульных морских пехотинцев США было загружено в модель, и модель успешно обнаружила все три винтовки M16 на изображении. Однако очертания модели не охватывали весь размах двух винтовок. Вероятно, это связано со сложностью изображения и размером набора данных. Если в набор данных для обучения будет добавлено больше данных, то выходные данные сегментации будут более точными.

Модель пистолета также была обучена с использованием реализации Matterport Mask R-CNN со 100 изображениями пистолетов, потому что изображения пистолетов намного проще получить и манипулировать ими. Для тренировочных данных были нарисованы контурные маски не только вокруг пистолета, но и вокруг магазинов и спусковых крючков. Из-за большого объема данных модель пистолета более уверенная и точная. На рисунке 14 ниже показан пример выходных данных модели пистолета Mask R-CNN.

Как видно, фиолетовый контур покрывает пистолет, голубой контур покрывает спусковой крючок, зеленый контур покрывает патронник магазина, а красный контур покрывает руку. Эта информация дает невероятное представление о случаях появления огнестрельного оружия на изображениях.

Однако скорость обработки как модели винтовки, так и модели пистолета довольно низкая - примерно 1,5 секунды на изображение. Этого недостаточно для обработки видео в реальном времени. Точность относительно высока по сравнению с YOLO, и с аналогичным набором данных и аналогичной средой выполнения он распознал больше объектов с большей уверенностью.

5. Выводы

Из анализа в теле отчета был сделан вывод, что и Darknet YOLO, и Mask R-CNN должны быть реализованы как комбинированное решение для системы обнаружения объектов в реальном времени для огнестрельного оружия. При использовании методов глубокого обучения для обнаружения объектов скорость и точность являются двумя жизненно важными компонентами для измерения производительности. Почти наверняка возникнет компромисс между скоростью и точностью, поэтому при реализации системы обнаружения в реальном времени точность результатов может быть значительно снижена.

Были исследованы различные API обнаружения объектов. Они были предоставлены фреймворками машинного обучения, такими как TensorFlow OD API и DeepDetect API, для быстрого цикла разработки и создания шаблонов. Однако оказывается, что, хотя API-интерфейсы просты в использовании, их производительность отстает от реальных реализаций на основе кода. Это связано с тем, что API-интерфейсы предлагают меньший контроль и ручную настройку, которая может повысить производительность.

Затем были изучены методология Mask R-CNN и ее реализация. Mask R-CNN предлагает сегментацию и классификацию на уровне экземпляра, что означает, что модель не только возвращает обнаружение объекта, но также рисует ограничивающую рамку, а также контур вокруг области на изображении, которое модель предсказывает как огнестрельное оружие. Реализации Mask R-CNN обеспечивают многообещающую точность и настраиваемость по сравнению с API глубокого обучения, но они все еще не идеальны для обработки видео в реальном времени.

Наконец, Darknet YOLO - это реализация YOLO (You Only Look Once), которая дает результаты с высокой скоростью. Модели нужно обучить только один раз, даже для выводов разного размера. Это значительно улучшило простоту реализации по сравнению с другими методами. Однако показатели точности YOLO немного хуже, чем у Mask R-CNN. Это связано с тем, что Mask R-CNN использует тысячи итераций через одно изображение, в то время как YOLO делает это только один раз.

Используя взвешенную матрицу решений с такими показателями, как точность, скорость, пропускная способность и модульность, можно увидеть, что и YOLO, и Mask R-CNN являются идеальными решениями со своим собственным компромиссом между скоростью и точностью. Поэтому YOLO и Mask R-CNN были реализованы на персональном ноутбуке для тестирования и сравнения. Оба обучаются с одинаковыми наборами данных в одинаковые сроки. Судя по результатам реальной реализации, Mask R-CNN имеет меньшее количество ложноотрицательных результатов, но YOLO сохраняет свою мощь по скорости, способную выполнять настоящую обработку видео в реальном времени.

Сделан вывод, что для окончательного решения следует использовать комбинацию YOLO и Mask R-CNN. YOLO можно использовать для предварительного сканирования видеозаписей в режиме реального времени, а Mask R-CNN - для вторичного сканирования, если предварительное сканирование вернет какие-либо положительные данные о наличии огнестрельного оружия. Таким образом, система удовлетворяет требованиям к скорости и пропускной способности, но при этом не теряет своей точности.

6 Рекомендации

На основе анализа и выводов в этом отчете рекомендуется, чтобы Darknet YOLO и Matterport Mask R-CNN были реализованы вместе в качестве комбинированного решения. Есть несколько рекомендаций по различным аспектам решения.

Во-первых, затраты на завершенную реализацию можно разделить на два основных источника: затраты на обучение и текущие затраты. Стоимость обучения зависит от сбора наборов данных, обучения модели и весов, а также начальной модерации человеческого интеллекта. Текущие расходы связаны с запуском службы, которая непрерывно обрабатывает видеоматериалы с помощью облачных компьютеров или физических машин. Рекомендуется использовать набор данных, собранный как для обучения модели YOLO, так и для обучения модели Mask R-CNN, даже если для обучения YOLO требуются только ограничивающие прямоугольники, а для Mask R-CNN требуются маски сегментации. Это вдвое снижает затраты на сбор данных.

Далее, для внедрения решения потребуется группа специалистов по обработке данных, разработчиков программного обеспечения и специалистов по разведке людей. Сотрудники разведки будут собирать данные о тренировках по различным категориям огнестрельного оружия, включая ограничивающие рамки и маски сегментации. Затем специалисты по обработке данных будут использовать данные для обучения модели YOLO, а также модели Mask R-CNN. Как только модели закончат обучение, разработчики программного обеспечения могут обслуживать систему. Рекомендуется полностью автоматизировать посттренировочную реализацию для самокоррекции. Это обеспечит постоянное обучение обеих моделей на новых данных, отображаемых пользователями, и со временем повысит точность.

Еще одна рекомендация касается будущих возможных улучшений конструкции. В настоящее время завершенный дизайн использует Darknet YOLO для мониторинга в реальном времени и отправляет кадры с положительными результатами распознавания в Mask R-CNN в бэкэнде для большей точности. Это может привести к ложноотрицательным результатам, поскольку YOLO может не распознавать определенные объекты с такой же точностью, как Mask R-CNN, и пропускать отснятый материал для отправки в Mask R-CNN для дальнейших прогнозов. Возможным решением является периодическая отправка одного кадра видеоматериала в реальном времени в Mask R-CNN, чтобы предотвратить пропущенные предсказания реализации YOLO.

Наконец, система является искусственной и глубоко изученной, поэтому ее достоверность и правильность необходимо постоянно контролировать и модерировать. Поскольку реализация решает проблему, которая явно требует высоких ставок, точность прогноза должна быть проверена до и во время производства. Разработчикам рекомендуется соблюдать меры предосторожности при тестировании системы перед запуском службы.

Дополнительные образцы выходных данных

Глоссарий

AI: Искусственный интеллект.

API: набор функций и процедур, позволяющих создавать приложения, которые получают доступ к функциям или данным операционной системы, приложения или другой службы.

Ударная ложа. Устройства, используемые с полуавтоматическим огнестрельным оружием для увеличения циклической скорости стрельбы, имитирующей почти непрерывную автоматическую стрельбу.

Видеонаблюдение: Системы охранного телевидения.

CNN: сверточные нейронные сети.

COCO: крупномасштабный набор данных для обнаружения, сегментации и субтитров.

CUDA: Compute Unified Device Architecture.

Маска R-CNN: Маска рекуррентной сверточной нейронной сети.

OD: Обнаружение объектов.

TF: TensorFlow.

TPU: блок обработки тензорных данных. Набор микросхем, специально разработанный для платформы Google TensorFlow.

YOLO: Вы смотрите только один раз.

использованная литература

[1]

Д. Л. а. К. А. Бонни Берковиц, Ужасающие цифры, которые растут с каждым массовым расстрелом, Вашингтон Пост, [Интернет]. Доступно: https://www.washingtonpost.com/graphics/2018/national/mass-shootings-in-america/?noredirect=on&utm_term=.119b20bb4794. [Проверено 18 ноября 2018 г.].

[2]

Архив о насилии с применением огнестрельного оружия [Интернет]. Доступно: https://www.gunviolencearchive.org/. [Проверено 18 ноября 2018 г.].

[3]

Обзор стрелкового оружия [Интернет]. Доступно: http://www.smallarmssurvey.org/. [Проверено 18 ноября 2018 г.].

[4]

Э. Р. Дэвис, Компьютерное зрение, 5-е издание, Academic Press, 2017.

[5]

И. Г. а. Ю. Б. а. А. Курвиль, Глубокое обучение, MIT Press, 2016.

[6]

EdjeElectronics, TensorFlow-Object-Detection-API-Tutorial-Train-Multiple-Objects-Windows-10, [Online]. Доступно: https://github.com/EdjeElectronics/TensorFlow-Object-Detection-API-Tutorial-Train-Multiple-Objects-Windows-10. [Проверено 18 ноября 2018 г.].

[7]

jolibrain, Deep Detect, [Online]. Доступно: https://github.com/jolibrain/deepdetect. [Проверено 18 ноября 2018 г.].

[8]

Дж. Х. Ф. Х. Б. С. X. Б. Й. З. Л. З. Гуй-Сон Ся, Контрольный набор данных для оценки эффективности классификации воздушных сцен, [онлайн]. Доступно: http://captain.whu.edu.cn/project/aid/. [Проверено 18 ноября 2018 г.].

[9]

Маттерпорт, Маска R-CNN, [Интернет]. Доступно: https://github.com/matterport/Mask_RCNN. [Проверено 18 ноября 2018 г.].

[10]

Facebookresearch, Детектрон, [Интернет]. Доступно: https://github.com/facebookresearch/Detectron. [Проверено 18 ноября 2018 г.].

[11]

J. a. Редмон Ф. А., Darknet YOLO, [Интернет]. Доступно: https://pjreddie.com/darknet/yolo/. [Проверено 18 ноября 2018 г.].