Почему обнаружение объектов вместо классификации изображений?

Модели классификации изображений, подробно описанные в моем предыдущем сообщении в блоге, классифицируют изображения в единую категорию, обычно соответствующую наиболее заметному объекту. Однако в Zyl мы разрабатываем функции, которые возвращают старые воспоминания, похороненные в вашем смартфоне. Фотографии, сделанные с помощью мобильных телефонов, обычно сложны и содержат несколько объектов. При этом присвоение метки моделям классификации изображений может стать сложным и неопределенным. Поэтому модели обнаружения объектов более подходят для идентификации нескольких значимых объектов на одном изображении. Второе существенное преимущество моделей обнаружения объектов перед моделями классификации изображений заключается в том, что обеспечивается локализация объектов. Это не подходило для Zyl и таких функций, как создание фотоальбомов или обнаружение дубликатов, но в других случаях использования это может быть интересно. Подумайте об автономных автомобилях или создании подписей к изображениям.

В этом сообщении в блоге я расскажу о современных моделях обнаружения объектов. Я подробно расскажу об эволюции архитектур наиболее точных моделей обнаружения объектов с 2012 года по сегодняшний день. Одним из критериев моего анализа будет их скорость вывода, позволяющая проводить анализ в реальном времени. Обратите внимание, что исследователи тестируют свои алгоритмы с использованием разных наборов данных (PASCAL VOC, COCO, ImageNet), которые различаются по годам. Таким образом, указанные точности нельзя напрямую сравнивать per se.

Наборы данных и показатели производительности

Было выпущено несколько наборов данных для задач обнаружения объектов. Исследователи публикуют результаты своих алгоритмов, применяемых для решения этих задач. Конкретные показатели производительности были разработаны для учета пространственного положения обнаруженного объекта и точности прогнозируемых категорий.

Наборы данных

Набор данных PASCAL Visual Object Classification (PASCAL VOC) - это хорошо известный набор данных для обнаружения объектов, классификации, сегментации объектов и так далее. С 2005 по 2012 год существует 8 различных задач, каждая из которых имеет свои особенности. Существует около 10 000 изображений для обучения и проверки, содержащих ограничивающие рамки с объектами. Хотя набор данных PASCAL VOC содержит только 20 категорий, он по-прежнему считается эталонным набором данных в задаче обнаружения объектов.

ImageNet выпускает набор данных для обнаружения объектов с 2013 года с ограничивающими рамками. Набор данных для обучения состоит из около 500 000 изображений только для обучения и 200 категорий. Он редко используется, потому что размер набора данных требует значительной вычислительной мощности для обучения. Также большое количество классов усложняет задачу распознавания объектов. Сравнение набора данных ImageNet за 2014 год и набора данных PASCAL VOC за 2012 год доступно здесь.

С другой стороны, набор данных Общие объекты в COntext (COCO) разработан Microsoft и подробно описан T.-Y.Lin и др. (2015) . Этот набор данных используется для решения множества задач: генерации заголовков, обнаружения объектов, обнаружения ключевых точек и сегментации объектов. Мы фокусируемся на задаче обнаружения объектов COCO, заключающейся в локализации объектов на изображении с помощью ограничивающих рамок и классификации каждого из них по 80 категориям. Набор данных меняется каждый год, но обычно состоит из более чем 120 000 изображений для обучения и проверки и более 40 000 изображений для тестирования. Набор тестовых данных недавно был разрезан на набор данных test-dev для исследователей и набор данных test-challenge для конкурентов. Оба связанных помеченных данных не являются общедоступными, чтобы избежать переобучения тестового набора данных.

Показатель производительности

Задача обнаружения объектов - это одновременно задача регрессии и классификации. Прежде всего, чтобы оценить пространственную точность, нам нужно удалить блоки с низкой степенью уверенности (обычно модель выводит намного больше блоков, чем реальных объектов). Затем мы используем область Пересечение по объединению (IoU), значение от 0 до 1. Это соответствует области перекрытия между предсказанным блоком и блоком наземной истины. Чем выше IoU, тем точнее прогнозируемое местоположение коробки для данного объекта. Обычно мы оставляем всех кандидатов в ограничивающую рамку с IoU, превышающим некоторый порог.

В бинарной классификации показатель средней точности (AP) представляет собой сводку кривой точности-отзыва, подробности представлены здесь. Обычно используемый показатель, используемый для задач обнаружения объектов, называется средняя точность (mAP). Это просто среднее значение средней точности, вычисленное для всех классов задачи. Показатель mAP позволяет избежать чрезмерной специализации в нескольких классах и, следовательно, слабой производительности в других.

Оценка mAP обычно вычисляется для фиксированного IoU, но большое количество ограничивающих рамок может увеличить количество квадратов-кандидатов. Задача COCO разработала официальную метрику, чтобы избежать чрезмерного образования коробок. Он вычисляет среднее значение оценок MAP для переменных значений IoU, чтобы штрафовать большое количество ограничивающих прямоугольников с неправильной классификацией.

Сверточная сеть на основе регионов (R-CNN)

Первые модели интуитивно начинают с поиска региона, а затем выполняют классификацию. В R-CNN метод выборочного поиска, разработанный J.R.R. Uijlings и др. (2012) - альтернатива полному поиску на изображении для определения местоположения объекта. Он инициализирует небольшие области изображения и объединяет их в иерархическую группу. Таким образом, последняя группа - это блок, содержащий все изображение. Обнаруженные области объединяются в соответствии с различными цветовыми пространствами и показателями сходства. Результатом является несколько предложений регионов, которые могут содержать объект путем слияния небольших регионов.

Модель R-CNN (R. Girshick et al., 2014) сочетает в себе метод выборочного поиска для обнаружения предложений регионов и глубокое обучение для обнаружения объекта в этих регионах. Размер каждого предложения по региону изменяется в соответствии с вводом CNN, из которого мы извлекаем 4096-размерный вектор функций. Вектор признаков подается в несколько классификаторов, чтобы определить вероятности принадлежности к каждому классу. Каждый из этих классов имеет классификатор SVM, обученный делать выводы о вероятности обнаружения этого объекта для данного вектора функций. Этот вектор также подает сигнал в линейный регрессор для адаптации формы ограничивающей рамки для предложения региона и, таким образом, уменьшения ошибок локализации.

Модель CNN, описанная авторами, обучена на наборе данных ImageNet 2012 года для исходной задачи классификации изображений. Он настраивается с использованием предложений по регионам, соответствующих IoU больше 0,5, с полями наземной достоверности. Выпускаются две версии: одна версия использует набор данных PASCAL VOC 2012 года, а другая - набор данных ImageNet 2013 года с ограничивающими рамками. Классификаторы SVM также обучаются для каждого класса каждого набора данных.

Лучшие модели R-CNN достигли 62,4% балла mAP по набору данных теста PASCAL VOC 2012 (рост на 22,0 балла по сравнению со вторым лучшим результатом в таблице лидеров) и 31,4% балла по сравнению с набором данных ImageNet 2013 года (рост на 7,1 балла по сравнению со вторым лучшим результатом в таблице лидеров). второй лучший результат в таблице лидеров).

Быстрая сверточная сеть на основе регионов (Fast R-CNN)

Назначение сверточной сети Fast Region-based Convolutional Network (Fast R-CNN), разработанной R. Girshick (2015) заключается в сокращении затрат времени, связанных с большим количеством моделей, необходимых для анализа всех предложений по регионам.

Основная CNN с несколькими сверточными слоями принимает все изображение в качестве входных данных вместо использования CNN для каждого предложения региона (R-CNN). Области интересов (RoI) обнаруживаются с помощью метода выборочного поиска, применяемого к созданным картам характеристик. Формально размер карты функций уменьшается с использованием слоя объединения RoI, чтобы получить допустимую область интересов с фиксированными высотой и шириной в качестве гиперпараметров. Каждый слой RoI питает полносвязные слои, создавая вектор функций. Вектор используется для прогнозирования наблюдаемого объекта с помощью классификатора softmax и для адаптации локализаций ограничивающего прямоугольника с помощью линейного регрессора.

Лучшие Fast R-CNN достигли показателей mAp в 70,0% для набора данных теста PASCAL VOC 2007 года, 68,8% для набора данных теста PASCAL VOC 2010 года и 68,4% для набора данных теста PASCAL VOC 2012 года.

Более быстрая сверточная сеть на основе регионов (Faster R-CNN)

Предложения регионов, обнаруженные с помощью метода выборочного поиска, по-прежнему необходимы в предыдущей модели, которая требует больших вычислительных ресурсов. С. Рен и др. (2016) представили Сеть предложений регионов (RPN) для непосредственного создания предложений регионов, прогнозирования ограничивающих рамок и обнаружения объектов. Сверточная сеть на основе более быстрой области (Faster R-CNN) представляет собой комбинацию между RPN и моделью Fast R-CNN.

Модель CNN принимает в качестве входных данных все изображение и создает карты характеристик. Окно размером 3x3 сдвигает все карты признаков и выводит вектор признаков, связанный с двумя полностью связанными слоями: один для блочной регрессии, а другой - для блочной классификации. Предложения по нескольким регионам предсказываются полносвязными слоями. Максимальное количество областей фиксировано, поэтому размер выходных данных уровня блочной регрессии составляет 4k (координаты ящиков, их высота и ширина), а выходных данных уровня блочной классификации - 2k (оценки «объектности»). обнаруживать объект или нет в коробке). Предложения k областей, обнаруженные скользящим окном, называются якорями.

Когда якорные блоки обнаружены, они выбираются путем применения порогового значения по оценке «объектности», чтобы оставить только соответствующие блоки. Эти якорные блоки и карты характеристик, вычисленные исходной моделью CNN, подаются в модель Fast R-CNN.

Faster R-CNN использует RPN, чтобы избежать метода выборочного поиска, он ускоряет процессы обучения и тестирования и улучшает производительность. RPN использует предварительно обученную модель в наборе данных ImageNet для классификации и точно настраивается на наборе данных PASCAL VOC. Затем сгенерированные предложения региона с якорными блоками используются для обучения Fast R-CNN. Это итеративный процесс.

Лучшие Faster R-CNN получили баллы MAP 78,8% по набору данных теста PASCAL VOC 2007 года и 75,9% по набору данных теста PASCAL VOC 2012 года. Они прошли обучение с использованием наборов данных PASCAL VOC и COCO. Одна из этих моделей² в 34 раза быстрее Fast R-CNN при использовании метода выборочного поиска.

Полностью сверточная сеть на основе регионов (R-FCN)

Методологии Fast and Faster R-CNN состоят в обнаружении предложений региона и распознавании объекта в каждом регионе. Полностью сверточная сеть на основе регионов (R-FCN), выпущенная J. Дай и др. (2016) - это модель, в которой используются только сверточные слои³, обеспечивающие полное обратное распространение для обучения и вывода. Авторы объединили два основных шага в единую модель, чтобы учесть одновременно обнаружение объекта (инвариант местоположения) и его положение (вариант местоположения).

Модель ResNet-101 принимает исходное изображение на входе. Последний слой выводит карты характеристик, каждая из которых специализируется на обнаружении категории в каком-либо месте. Например, одна карта функций предназначена для обнаружения кошки, другая - для обнаружения банана и так далее. Такие карты характеристик называются позиционно-зависимыми картами оценок, потому что они учитывают пространственную локализацию конкретного объекта. Он состоит из k*k*(C+1) карт оценок, где k - размер карты оценок, а C - количество классов. Все эти карты образуют банк очков. По сути, мы создаем пятна, которые могут распознавать часть объекта. Например, для k=3 мы можем распознать 3x3 части объекта.

Параллельно нам нужно запустить RPN для создания области интереса (RoI). Наконец, мы разрезаем каждую рентабельность инвестиций по ячейкам и сверяем их с оценочным банком. Если активировано достаточное количество этих частей, то патч скажет «да», я узнал объект.

J. Дай и др. (2016) подробно описаны приведенный ниже пример. На рисунках показана реакция модели R-FCN, специализирующейся на обнаружении человека. Для RoI в центре изображения (рис. 3) подобласти на картах функций относятся к шаблонам, связанным с человеком. Таким образом, они голосуют за да, в этом месте есть человек. На рисунке 4 RoI смещен вправо и больше не ориентирован на человека. Субрегионы на картах характеристик не согласны с обнаружением человека, поэтому они голосуют нет, в этом месте нет человека.

Лучшие R-FCN достигли показателей mAP 83,6% для набора данных теста PASCAL VOC 2007 года и 82,0%, они были обучены с наборами данных PASCAL VOC 2007, 2012 и набором данных COCO. По набору данных test-dev задачи COCO 2015 года они набрали 53,2% для IoU = 0,5 и 31,5% для официальной метрики MAP. Авторы заметили, что R-FCN в 2,5–20 раз быстрее, чем аналог Faster R-CNN.

Ты смотришь только один раз (YOLO)

Модель YOLO (J. Redmon et al., 2016)) напрямую предсказывает ограничивающие прямоугольники и вероятности классов с одной сетью за одну оценку. Простота модели YOLO позволяет делать прогнозы в реальном времени.

Первоначально модель принимает изображение в качестве входных данных. Он делит его на сетку SxS. Каждая ячейка этой сетки предсказывает B ограничивающих прямоугольников с оценкой достоверности. Эта уверенность представляет собой просто вероятность обнаружения объекта, умноженную на IoU между предсказанным и наземным блоками истинности.

Используемая CNN вдохновлена ​​моделью GoogLeNet, в которой представлены начальные модули. Сеть имеет 24 сверточных слоя, за которыми следуют 2 полностью связанных слоя. Слои редукции с фильтрами 1x1⁴, за которыми следуют сверточные слои 3x3, заменяют начальные модули. Модель Fast YOLO - это более легкая версия всего с 9 сверточными слоями и меньшим количеством фильтров. Большинство сверточных слоев предварительно обучаются с использованием набора данных ImageNet с классификацией. Четыре сверточных слоя, за которыми следуют два полностью связанных слоя, добавляются к предыдущей сети, и она полностью переобучена с наборами данных PASCAL VOC 2007 и 2012 годов.

Последний слой выводит тензор S*S*(C+B*5), соответствующий прогнозам для каждой ячейки сетки. C - количество предполагаемых вероятностей для каждого класса. B - фиксированное количество якорей на ячейку, каждый из которых связан с 4 координатами (координаты центра прямоугольника, шириной и высотой) и значением достоверности.

В предыдущих моделях предсказанные ограничивающие рамки часто содержали объект. Однако модель YOLO предсказывает большое количество ограничивающих рамок. Таким образом, существует множество ограничивающих рамок без каких-либо объектов. Метод не максимального подавления (NMS) применяется в конце сети. Он заключается в объединении сильно перекрывающихся ограничивающих рамок одного и того же объекта в один. Авторы заметили, что ложных срабатываний по-прежнему мало.

Модель YOLO имеет оценку mAP 63,7% по набору данных PASCAL VOC 2007 года и оценку mAP 57,9% по набору данных PASCAL VOC 2012 года. Модель Fast YOLO имеет более низкие оценки, но обе они работают в реальном времени.

Детектор одиночного выстрела (SSD)

Аналогично модели YOLO, W. Лю и др. (2016) разработали Single-Shot Detector (SSD) для одновременного прогнозирования всех ограничивающих рамок и вероятностей классов с сквозной архитектурой CNN.

Модель принимает изображение в качестве входных данных, которое проходит через несколько сверточных слоев с фильтрами разных размеров (10x10, 5x5 и 3x3). Карты характеристик из сверточных слоев в различных положениях сети используются для прогнозирования ограничивающих прямоугольников. Они обрабатываются специальными сверточными слоями с фильтрами 3x3, называемыми дополнительными векторными слоями, для создания набора ограничивающих прямоугольников, подобных якорным прямоугольникам Fast R-CNN.

Каждое поле имеет 4 параметра: координаты центра, ширину и высоту. В то же время он создает вектор вероятностей, соответствующий доверию для каждого класса объектов.

Метод подавления без максимума также используется в конце модели SSD для сохранения наиболее релевантных ограничивающих рамок. Затем используется Hard Negative Mining (HNM), потому что еще прогнозируется множество отрицательных блоков. Он заключается в выборе только части этих полей во время обучения. Ящики упорядочены по достоверности, а верхняя часть выбирается в зависимости от соотношения между отрицательным и положительным, которое составляет не более 1/3.

W. Лю и др. (2016) различают модель SSD300 (архитектура подробно описана на рисунке выше) и модель SSD512, которая представляет собой SSD300 с дополнительным сверточным слоем для прогнозирования с целью повышения производительности. Лучшие модели твердотельных накопителей обучаются с использованием наборов данных PASCAL VOC 2007, 2012 и набора данных COCO 2015 с дополнением данных. Они получили баллы MAP 83,2% по набору данных теста PASCAL VOC 2007 года и 82,2% по набору данных теста PASCAL VOC 2012 года. По набору данных test-dev задачи COCO 2015 года они набрали 48,5% для IoU = 0,5, 30,3% для IoU = 0,75 и 31,5% для официальной метрики mAP.

YOLO9000 и YOLOv2

J. Редмон и А. Фархади (2016) выпустили новую модель под названием YOLO9000, способную обнаруживать более 9000 категорий объектов при работе, по словам авторов, практически в реальном времени. Они также обеспечивают улучшения по сравнению с исходной моделью YOLO, чтобы улучшить ее производительность без снижения ее скорости (около 10 изображений в секунду на недавнем мобильном телефоне в соответствии с нашей реализацией).

YOLOv2

Модель YOLOv2 ориентирована на повышение точности, оставаясь при этом быстрым детектором. Добавлена ​​пакетная нормализация для предотвращения переобучения без использования исключения. В качестве входных данных принимаются изображения с более высоким разрешением: модель YOLO использует изображения 448x448, а YOLOv2 использует изображения 608x608, что позволяет обнаруживать потенциально более мелкие объекты.

Последний полностью связанный слой модели YOLO, предсказывающий координаты ограничивающих прямоугольников, был удален, чтобы использовать якорные блоки так же, как Faster R-CNN. Входное изображение сокращается до сетки ячеек, каждая из которых содержит 5 якорей. YOLOv2 использует 19*19*5=1805 якорных блока по изображению вместо 98 ящиков для модели YOLO. YOLOv2 прогнозирует коррекцию якорного бокса относительно местоположения ячейки сетки (диапазон от 0 до 1) и выбирает ящики в соответствии с их достоверностью в качестве модели SSD. Размеры якорных прямоугольников были зафиксированы с помощью k-средних на обучающем наборе ограничивающих прямоугольников.

Он использует архитектуру, подобную ResNet, для объединения карт функций с высоким и низким разрешением для обнаружения более мелких объектов. «Darknet-19» состоит из 19 сверточных слоев с фильтрами 3x3 и 1x1, за группами сверточных слоев следуют слои maxpooling для уменьшения размера вывода. Последний сверточный слой 1x1 выводит 5 блоков на ячейку сетки с 5 координатами и 20 вероятностями в каждой (20 классов набора данных PASCAL VOC).

Модель YOLOv2, обученная с использованием набора данных PASCAL VOC 2007 и 2012 годов, имеет оценку mAP 78,6% по сравнению с тестовым набором данных PASCAL VOC 2007 года со значением FPS 40. Модель, обученная с использованием набора данных 2015 COCO, имеет оценки mAP над набором данных test-dev 44,0% для IoU = 0,5, 19,2% для IoU = 0,75 и 21,6% для официальной метрики MAP.

YOLO9000

Авторы объединили набор данных ImageNet с набором данных COCO, чтобы получить модель, способную обнаруживать точные объекты или породу животных. Набор данных ImageNet для классификации содержит 1000 категорий, а набор данных COCO 2015 - только 80 категорий. Классы ImageNet основаны на лексиконе WordNet, разработанном Принстонским университетом⁵, который состоит из более чем 20 000 слов. J. Редмон и А. Фархади (2016) подробно описывают метод построения древовидной версии WordNet. Softmax применяется к группе меток с одним и тем же гипонимом, когда модель делает прогноз на изображении. Таким образом, окончательная вероятность, связанная с меткой, вычисляется с помощью апостериорных вероятностей в дереве. Когда авторы распространяют концепцию на весь лексикон WordNet, исключая недопредставленные категории, они получают более 9 000 категорий.

Комбинация между наборами данных COCO и ImageNet используется для обучения архитектуры, подобной YOLOv2, с 3 предшествующими слоями свертки вместо 5 для ограничения размера вывода. Модель оценивается в наборе данных ImageNet для задачи обнаружения примерно с 200 метками. Всего 44 метки используются для обучения и тестирования набора данных, поэтому результаты не имеют отношения к делу. По всему набору тестовых данных он набирает 19,7% баллов MAP.

Сеть поиска нейронной архитектуры (NASNet)

Поиск нейронной архитектуры (B. Zoph and Q.V. Le, 2017) подробно описан в моем предыдущем посте. Он заключается в изучении архитектуры модели для оптимизации количества слоев при одновременном повышении точности по заданному набору данных. Б. Зоф и др. (2017) достигли более высоких характеристик с более легкой моделью, чем предыдущие работы, в рамках задачи классификации ImageNet 2012 года.

Авторы применили этот метод для обнаружения пространственных объектов. Сеть NASNet имеет архитектуру, заимствованную из набора данных CIFAR-10, и обучена с помощью набора данных 2012 ImageNet. Эта модель используется для создания карт функций и встраивается в конвейер Faster R-CNN. Затем весь конвейер переобучается с помощью набора данных COCO.

Лучшие модели NASNet для распознавания объектов получили оценку mAP 43,1% по набору данных test-dev задачи COCO с IoU = 0,5. Более легкая версия NASNet, оптимизированная для мобильных устройств, имеет показатель MAP 29,6% по тому же набору данных.

Сверточная сеть на основе маски (Mask R-CNN)

Еще одно расширение модели Faster R-CNN было выпущено К. Он и др. (2017) добавление параллельной ветви к обнаружению ограничивающего прямоугольника для прогнозирования маски объекта. Маска объекта - это его пиксельная сегментация изображения. Эта модель превосходит современную модель по четырем задачам COCO: сегментация экземпляров, обнаружение ограничивающей рамки, обнаружение объектов и обнаружение ключевых точек.

Сверточная сеть на основе области маски (Mask R-CNN) использует конвейер Faster R-CNN с тремя выходными ветвями для каждого объекта-кандидата: метка класса, смещение ограничивающего прямоугольника и маска объекта. Он использует сеть предложений региона (RPN) для создания предложений ограничивающей рамки и производит три результата одновременно для каждого региона интереса (RoI).

Первоначальный уровень RoIPool, используемый в Faster R-CNN, заменяется слоем RoIAlign. Он удаляет квантование координат исходной RoI и вычисляет точные значения местоположений. Слой RoIAlign обеспечивает эквивалентность масштаба и эквивалентность перевода с предложениями региона.

Модель принимает изображение в качестве входных данных и питает сеть ResNeXt с 101 слоем. Эта модель похожа на ResNet, но каждый остаточный блок разделен на более легкие преобразования, которые агрегированы, чтобы добавить разреженности в блок. Модель обнаруживает RoI, которые обрабатываются с использованием уровня RoIAlign. Одна ветвь сети связана с полностью подключенным слоем для вычисления координат ограничивающих рамок и вероятностей, связанных с объектами. Другая ветвь связана с двумя сверточными слоями, последний вычисляет маску обнаруженного объекта.

Суммируются три функции потерь, связанные с каждой решаемой задачей. Эта сумма сведена к минимуму и обеспечивает отличную производительность, потому что решение задачи сегментации улучшает локализацию и, следовательно, классификацию.

Маска R-CNN достигла показателей mAP 62,3% для IoU = 0,5, 43,4% для IoU = 0,7 и 39,8% для официальной метрики по набору данных COCO test-dev 2016.

Заключение

На протяжении многих лет модели обнаружения объектов стремятся одновременно определять локализацию и классификацию, чтобы получить полностью дифференцируемую сеть. Таким образом, его можно обучать от головы до хвоста с обратным распространением. Более того, между последними моделями сделан компромисс между высокой производительностью и возможностью прогнозирования в реальном времени.

Модели, представленные в этом сообщении в блоге, либо точны, либо быстры для вывода. Однако все они имеют сложную и тяжелую архитектуру. Например, модель YOLOv2 занимает около 200 МБ, а лучшая модель NASNet - около 400 МБ. Уменьшение размера при сохранении той же производительности - активная область исследований для встраивания моделей глубокого обучения в мобильные устройства. Некоторые подробности будут предоставлены в следующей публикации.

¹: Вся архитектура основана на модели VGG16, поэтому она имеет 13 сверточных слоев и 3 полносвязных слоя.

²: Самый быстрый Faster R-CNN имеет архитектуру, вдохновленную моделью ZFNet, представленной M.D. Цайлер и Р. Фергус (2013) . Обычно используемый Faster R-CNN имеет архитектуру, аналогичную модели VGG16, и в 10 раз быстрее, чем Fast R-CNN.

³: За исключением последнего слоя, который является полностью связанным слоем.

⁴: уменьшает пространство элементов по сравнению с предыдущими слоями.

⁵: Подробности описаны в предыдущем сообщении блога.