Введение

Компьютерное зрение обычно относится к научной дисциплине, дающей машинам способность видеть или, возможно, более красочно, позволяя машинам визуально анализировать окружающую среду и стимулы внутри них. Этот процесс обычно включает оценку изображения, изображений или видео. Британская ассоциация машинного зрения (BMVA) определяет компьютерное зрение как «автоматическое извлечение, анализ и понимание полезной информации из одного изображения или последовательности изображений» [1].

Термин понимание представляет собой интересный контрапункт к механическому определению зрения, которое служит для демонстрации как значимости, так и сложности области компьютерного зрения. Истинное понимание нашей окружающей среды не достигается с помощью одних только визуальных представлений. Скорее, визуальные сигналы проходят через зрительный нерв в первичную зрительную кору и интерпретируются мозгом в очень стилизованном смысле. Интерпретации, извлеченные из этой сенсорной информации, охватывают почти все наши естественные программы и субъективные переживания, то есть то, как эволюция заставила нас выжить и что мы узнаем о мире на протяжении всей жизни.

В этом отношении видение относится только к передаче изображений для интерпретации; в то время как вычисление указанных изображений больше похоже на мышление или познание, поскольку оно задействует множество способностей мозга. Следовательно, многие считают, что компьютерное зрение, истинное понимание визуальных сред и их контекстов, прокладывает путь для будущих итераций сильного искусственного интеллекта благодаря его междоменному мастерству.

Однако положите вилы, поскольку мы все еще находимся в зачаточном состоянии этой увлекательной области. Эта статья просто нацелена на то, чтобы пролить свет на крупнейшие достижения в области компьютерного зрения 2016 года. И, надеюсь, обосновать некоторые из этих достижений здоровым сочетанием ожидаемых краткосрочных социальных взаимодействий и, где это применимо, насмешливых прогнозов конца жизни в том виде, в каком мы его знаем.

Несмотря на то, что наша работа всегда написана так, чтобы быть максимально доступной, разделы в этой конкретной части иногда могут быть наклонными из-за предмета. Мы все же приводим элементарные определения, однако они дают лишь поверхностное представление о ключевых концепциях. При сосредоточении внимания на работе, выполненной в 2016 году, мы часто делаем упущения в интересах краткости.

Одно из таких вопиющих упущений относится к функциональности сверточных нейронных сетей (далее CNN или ConvNets), которые широко распространены в области компьютерного зрения. Успех AlexNet [2] в 2012 году, архитектура CNN, которая ослепила конкурентов ImageNet, доказала, что де-факто провела революцию в этой области, когда многочисленные исследователи приняли подходы на основе нейронных сетей как часть нового периода «нормальной науки» Computer Vision. . [3]

Спустя более четырех лет варианты CNN по-прежнему составляют основную часть новых архитектур нейронных сетей для задач зрения, и исследователи реконструируют их, как лего; рабочее свидетельство силы как информации с открытым исходным кодом, так и глубокого обучения. Тем не менее, объяснение CNN может легко охватывать несколько постов, и его лучше оставить тем, кто имеет более глубокие познания в этой теме и склонен делать сложное понятным.

Для случайных читателей, которые хотят быстро подготовиться к работе, прежде чем продолжить, мы рекомендуем первые два ресурса ниже. Для тех, кто хочет пойти еще дальше, мы заказали указанные ниже ресурсы, чтобы облегчить это:

Что глубокая нейронная сеть думает о вашем #selfie от Андрея Карпати - одна из наших любимых статей, помогающих людям понять приложения и функции, лежащие в основе CNN. [4]

Quora: «Что такое сверточная нейронная сеть?» - Здесь нет недостатка в прекрасных ссылках и пояснениях. Особенно подходит для тех, у кого нет предварительного понимания. [5]

CS231n: сверточные нейронные сети для визуального распознавания от Стэнфордского университета - отличный ресурс для более глубокого изучения. [6]

Deep Learning (Goodfellow, Bengio & Courville, 2016) предоставляет подробные объяснения возможностей и функций CNN в главе 9. Учебник был любезно предоставлен авторами бесплатно в формате HTML [7].

Для тех, кто хочет больше узнать о нейронных сетях и глубоком обучении в целом, мы предлагаем:

Нейронные сети и глубокое обучение (Nielsen, 2017) - это бесплатный онлайн-учебник, который дает читателю действительно интуитивное понимание сложностей нейронных сетей и глубокого обучения. Даже просто завершив первую главу, вы должны пролить свет на предмет этой статьи для новичков. [8]

В целом это произведение разрозненно и скачкообразно, отражая волнение авторов и тот дух, в котором оно было предназначено для использования, раздел за разделом. Информация разделяется с использованием нашей собственной эвристики и суждений, что является необходимым компромиссом из-за междоменного влияния большей части представленной работы.

Мы надеемся, что читатели извлекут пользу из нашего агрегирования информации здесь, чтобы расширить свои знания, независимо от предыдущего опыта.

От всех наших участников,

Танк М

Классификация / Локализация

Задача классификации, когда она относится к изображениям, обычно относится к присвоению метки всему изображению, например 'Кот'. Предполагая это, локализация может затем относиться к поиску места нахождения объекта на указанном изображении, что обычно обозначается выходом некоторой формы ограничивающего прямоугольника вокруг объекта. Современные методы классификации в ImageNet [9], вероятно, превзошли множество обученных людей. [10] По этой причине мы уделяем больше внимания последующим разделам блога.

Рис. 1. Задачи компьютерного зрения

Однако введение более крупных наборов данных с увеличенным числом классов [11], вероятно, предоставит новые показатели для прогресса в ближайшем будущем. По этому поводу Франсуа Шоле, создатель Keras, [12] применил новые методы, включая популярную архитектуру Xception, к внутреннему набору данных Google с более чем 350 миллионами изображений с несколькими метками, содержащими 17 000 классов [13, 14].

Рисунок 2: Результаты классификации / локализации, проведенные ILSVRC (2010–2016 гг.)

Источник: Цзя Дэн (2016). Локализация объекта ILSVRC2016: введение, результаты. Слайд 2. Доступно: http://image-net.org/challenges/talks/2016/ILSVRC2016_10_09_clsloc.pdf

Интересные выводы из ImageNet LSVRC (2016 г.):

  • Классификация сцен относится к задаче присвоения изображению ярлыка с определенным классом сцены, таким как «оранжерея», «стадион», «собор» и т. д. В прошлом году ImageNet провела испытание по классификации сцен с подмножеством Набор данных Places2 [15]: 8 миллионов изображений для обучения с 365 категориями сцен.
    Hikvision [16] победил с ошибкой 9% в первой пятерке с ансамблем глубоких сетей в стиле Inception и не очень глубоких сетей остатков.
  • Trimps-Soushen победил в задаче по классификации ImageNet с ошибкой классификации топ-5 2,99% и ошибкой локализации 7,71%. Команда использовала ансамбль для классификации (усреднение результатов моделей Inception, Inception-Resnet, ResNet и Wide Residual Networks [17]) и Faster R-CNN для локализации на основе меток [18]. Набор данных был распределен по 1000 классам изображений, при этом 1,2 миллиона изображений были предоставлены в качестве обучающих данных. Разделенные тестовые данные составили еще 100 тысяч невидимых изображений.
  • ResNeXt от Facebook занял второе место в топ-5 ошибок классификации с 3,03% за счет использования новой архитектуры, которая расширяет исходную архитектуру ResNet. [19]

Обнаружение объекта

Как можно себе представить, процесс Обнаружения объектов делает именно это, обнаруживая объекты на изображениях. Определение, предоставленное для обнаружения объектов в ILSVRC 2016 [20], включает вывод ограничивающих рамок и меток для отдельных объектов. Это отличается от задачи классификации / локализации тем, что классификация и локализация применяются ко многим объектам, а не только к одному доминирующему объекту.

Рисунок 3: обнаружение объектов с использованием лица в качестве единственного класса

Одной из основных тенденций 2016 года в Обнаружении объектов стал переход к более быстрой и эффективной системе обнаружения. Это было заметно в таких подходах, как YOLO, SSD и R-FCN, как шаг к совместному использованию вычислений для всего изображения. Следовательно, мы отличаемся от дорогостоящих подсетей, связанных с технологиями Fast / Faster R-CNN. Это обычно упоминается как «сквозное обучение / обучение», и в этом материале описаны особенности.

Обоснование обычно состоит в том, чтобы избежать сосредоточения отдельных алгоритмов на своих соответствующих подзадачах изолированно, поскольку это обычно увеличивает время обучения и может снизить точность сети. При этом такая сквозная адаптация сетей обычно происходит после первоначальных подсетевых решений и, как таковая, является ретроспективной оптимизацией. Однако методы Fast / Faster R-CNN остаются высокоэффективными и все еще широко используются для обнаружения объектов.

  • SSD: Single Shot MultiBox Detector [22] использует одну нейронную сеть, которая инкапсулирует все необходимые вычисления и исключает создание дорогостоящих предложений других методов. Он достигает «75,1% MAP, превосходя сопоставимую современную модель Faster R-CNN» (Liu et al. 2016).
  • Одна из самых впечатляющих систем, которые мы видели в 2016 году, была от удачно названной «YOLO9000: лучше, быстрее, сильнее» [23], которая представляет системы обнаружения YOLOv2 и YOLO9000. [24] YOLOv2 значительно улучшает исходную модель YOLO середины 2015 года [25] и может достигать лучших результатов при очень высоких FPS (до 90 FPS на изображениях с низким разрешением с использованием оригинальной GTX Titan X). Помимо скорости завершения, система превосходит Faster RCNN с ResNet и SSD по некоторым наборам данных обнаружения объектов.
  • YOLO9000 реализует совместный метод обучения для обнаружения и классификации, расширяя его возможности прогнозирования за пределы доступных помеченных данных обнаружения, то есть он способен обнаруживать объекты, для которых он никогда не видел помеченных данных обнаружения. Модель YOLO9000 обеспечивает обнаружение объектов в реальном времени по более чем 9000 категориям, сокращая разрыв в размере набора данных между классификацией и обнаружением. Дополнительная информация, предварительно обученные модели и видео, показывающее его в действии, доступны здесь. [26]
  • Сети пирамид функций для обнаружения объектов [27] взяты из FAIR [28] и основаны на «присущей многомасштабной пирамидальной иерархии глубоких сверточных сетей для построения пирамид признаков с минимальными дополнительными затратами », что означает, что представления остаются мощными без ущерба для скорости или памяти. Lin et al. (2016) достигли современных результатов (далее SOTA) для одной модели на COCO. [29] Превышение результатов, достигнутых победителями в 2016 году, в сочетании с базовой системой Faster R-CNN.
  • R-FCN: обнаружение объектов с помощью полностью сверточных сетей на основе областей [30]: это еще один метод, позволяющий избежать сотни раз использования дорогостоящей подсети для каждого региона на изображении за счет создания детектора на основе области полностью сверточные и совместные вычисления для всего изображения. «Наш результат достигается при скорости тестирования 170 мс на изображение, что в 2,5–20 раз быстрее, чем у Faster R-CNN» (Dai et al., 2016).

Рисунок 4: компромисс точности при обнаружении объектов

Источник: Хуанг и др. (2016, стр. 9) [31]

Хуанг и др. (2016) [32] представляют статью, в которой проводится подробное сравнение производительности R-FCN, SSD и Faster R-CNN. Из-за проблем, связанных с точным сравнением методов машинного обучения (ML), мы хотели бы указать на преимущества разработки стандартизированного подхода. Они рассматривают эти архитектуры как «мета-архитектуры», поскольку их можно комбинировать с различными типами экстракторов функций, такими как ResNet или Inception.

Авторы изучают компромисс между точностью и скоростью, варьируя мета-архитектуру, средство извлечения функций и разрешение изображения. Например, выбор средства извлечения функций приводит к большим различиям между метаархитектурами.

Тенденция сделать обнаружение объектов дешевым и эффективным при сохранении точности, необходимой для коммерческих приложений в реальном времени, особенно в приложениях для автономного вождения, также продемонстрирована в статьях SqueezeDet [33] и PVANet [34]. В то время как китайская компания DeepGlint предоставляет хороший пример обнаружения объектов в процессе интеграции системы видеонаблюдения, хотя и в неопределенно оруэлловской манере: Видео [35].

Результаты испытаний ILSVRC и COCO Detection Challenge

COCO [36] (Общие объекты в контексте) - еще один популярный набор данных изображений. Однако он сравнительно меньше по размеру и более тщательно отобран, чем такие альтернативы, как ImageNet, с упором на распознавание объектов в более широком контексте понимания сцены. Организаторы ежегодно проводят соревнования по обнаружению объектов, сегментации и ключевым точкам. Результаты обнаружения как ILSVRC [37], так и COCO [38]: Detection Challenge:

Обнаружение объектов ImageNet LSVRC по изображениям (DET): CUImage 66% meanAP. Выиграл 109 из 200 категорий объектов.

Обнаружение объектов ImageNet LSVRC по видео (VID): NUIST 80,8% средняя точка доступа

Обнаружение объектов ImageNet LSVRC из видео с отслеживанием: CUvideo 55,8% средняя точка доступа

COCO 2016 Detection Challenge (ограничивающие рамки): G-RMI (Google) 41,5% AP (абсолютное увеличение на 4,2% по сравнению с победителем MSRAVC 2015 года)

В обзоре результатов обнаружения за 2016 год ImageNet заявил, что «MSRAVC 2015 установил очень высокую планку производительности [введение ResNets в соревнование]. Производительность по всем классам улучшилась во всех записях. Локализация значительно улучшилась в обеих задачах. Значительное относительное улучшение экземпляров небольших объектов »(ImageNet, 2016) [39].

Рисунок 5: Результаты обнаружения ILSVRC по изображениям (2013–2016 гг.)

Слежение за объектами

Относится к процессу отслеживания определенного интересующего объекта или нескольких объектов в данной сцене. У него традиционно есть приложения в видео и реальных взаимодействиях, где наблюдения производятся после первоначального обнаружения объекта; например, этот процесс имеет решающее значение для систем автономного вождения.

  • Полностью сверточные сиамские сети для отслеживания объектов [40] объединяют базовый алгоритм отслеживания с сиамской сетью, обученной сквозной цепью, которая обеспечивает SOTA и работает с частотой кадров, превышающей реальное время. . В этом документе делается попытка устранить недостаток разнообразия моделей отслеживания традиционных методов онлайн-обучения.
  • Обучение отслеживанию со скоростью 100 кадров в секунду с помощью сетей глубокой регрессии [41] - это еще одна статья, в которой делается попытка исправить существующие проблемы с методами онлайн-обучения. Авторы создают трекер, который использует сеть прямой связи для изучения общих отношений, окружающих движение, внешний вид и ориентацию объекта, которые эффективно отслеживают новые объекты без онлайн-обучения. Обеспечивает SOTA в стандартном тесте отслеживания, а также управляет «отслеживанием общих объектов со скоростью 100 кадров в секунду» (Held et al., 2016).

Доступно видео GOTURN (универсальное отслеживание объектов с использованием регрессионных сетей): Видео [42]

  • Функции Deep Motion для визуального отслеживания [43] объединяют созданные вручную функции, глубокие функции RGB / внешнего вида (из CNN) и функции глубокого движения (обученные на изображениях оптического потока) для достижения СОТА. Хотя функции глубокого движения являются обычным явлением в распознавании действий и классификации видео, авторы утверждают, что они впервые используются для визуального отслеживания. Работа также была удостоена награды Best Paper в ICPR 2016 за трек «Компьютерное зрение и зрение роботов».

«В этой статье представлено исследование влияния функций глубокого движения на структуру отслеживания путем обнаружения. Мы также показываем, что созданные вручную функции глубокого RGB и глубокого движения содержат дополнительную информацию. Насколько нам известно, мы первые предложили объединить информацию о внешнем виде с функциями глубокого движения для визуального отслеживания. Всесторонние эксперименты ясно показывают, что наш подход к слиянию с функциями глубокого движения превосходит стандартные методы, основанные только на информации о внешнем виде. "

  • Виртуальные миры как прокси для анализа слежения за несколькими объектами [44] приближается к отсутствию реальной изменчивости, присутствующей в существующих тестах и ​​наборах данных слежения за видео. В документе предлагается новый метод клонирования в реальном мире, который создает богатые, виртуальные, синтетические, фотореалистичные среды с нуля с полными метками, которые преодолевают некоторую стерильность, присутствующую в существующих наборах данных. Создаваемые изображения автоматически помечаются точной наземной информацией, что позволяет использовать множество приложений, помимо обнаружения / отслеживания объектов, таких как глубина и оптический поток.
  • Глобально оптимальное отслеживание объектов с помощью полностью сверточных сетей [45] имеет дело с дисперсией и окклюзией объекта, называя их двумя основными ограничениями в отслеживании объектов. «Предлагаемый нами метод решает проблему изменения внешнего вида объекта с использованием полностью сверточной сети и решает проблему перекрытия с помощью динамического программирования» (Ли и др., 2016).

Полную версию публикации можно бесплатно получить на нашем сайте: www.themtank.org

Мы рекомендуем читателям просматривать статью на нашем собственном веб-сайте, поскольку мы включаем встроенный контент и простые функции навигации, чтобы сделать отчет как можно более динамичным. Мы не получаем дохода через наш веб-сайт и хотели бы сделать его максимально интересным и интуитивно понятным для читателей, поэтому мы искренне приветствуем любые отзывы о презентации!

Следите за нашим профилем на носителе, чтобы узнать о следующей части (часть 2 из 4), а также о предстоящем содержании по всему спектру исследований в области ИИ. Не стесняйтесь размещать все отзывы и предложения в разделе комментариев, и мы вернемся к ним, как только сможем. Кроме того, вы можете связаться с нами напрямую через: [email protected]

Большое спасибо,

Танк М

Ссылки в порядке появления

Полный текст доступен по адресу: http://www.themtank.org/publications/a-year-in-computer-vision

[1] Британская ассоциация машинного зрения (BMVA). 2016. Что такое компьютерное зрение? [Онлайн] Доступно по адресу: http://www.bmva.org/visionoverview [дата обращения 21.12.2016]

[2] Крижевский А., Суцкевер И. и Хинтон Г. Э. 2012. Классификация ImageNet с глубокими сверточными нейронными сетями, NIPS 2012: Системы обработки нейронной информации, Озеро Тахо, Невада. Доступно: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf

[3] Кун, Т. С. 1962. Структура научных революций. 4-е изд. США: Издательство Чикагского университета.

[4] Karpathy, A. 2015. Что глубокая нейронная сеть думает о вашем #selfie. [Блог] Блог Андрея Карпати. Доступно: http://karpathy.github.io/2015/10/25/selfie/ [дата обращения: 21.12.2016]

[5] Quora. 2016. Что такое сверточная нейронная сеть? [Онлайн] Доступно: https://www.quora.com/What-is-a-convolutional-neural-network [дата обращения: 21.12.2016]

[6] Стэнфордский университет. 2016. Сверточные нейронные сети для визуального распознавания. [Online] CS231n. Доступно: http://cs231n.stanford.edu/ [дата обращения 21.12.2016]

[7] Goodfellow et al. 2016. Глубокое обучение. MIT Press. [Онлайн] http://www.deeplearningbook.org/ [Дата обращения: 21.12.2016] Примечание: Глава 9, Сверточные сети [Доступно: http: //www.deeplearningbook. org / contents / convnets.html ]

[8] Нильсен, М. 2017. Нейронные сети и глубокое обучение. [Онлайн] Электронная книга. Доступно: http://neuralnetworksanddeeplearning.com/index.html [Дата обращения: 06.03.2017].

[9] ImageNet - это популярный набор данных изображений для компьютерного зрения. Каждый год участники соревнуются в серии различных заданий, называемых ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Доступно: http://image-net.org/challenges/LSVRC/2016/index

[10] См. Что я узнал из соревнований с ConvNet на ImageNet Андрея Карпати. В сообщении блога подробно рассказывается о том, как автор пытается провести сравнительный анализ с набором данных ILSVRC 2014. Частота ошибок составляла примерно 5,1% по сравнению с современной ошибкой классификации GoogLeNet в 6,8%. Доступно: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

[11] См. Новые наборы данных далее в этой статье.

[12] Keras - популярная библиотека глубокого обучения на основе нейронных сетей: https://keras.io/

[13] Шолле, Ф. 2016. Теоретико-информационные вложения меток для крупномасштабной классификации изображений. [Online] arXiv: 1607.05691. Доступно: arXiv: 1607.05691v1

[14] Чолле, Ф. 2016. Xception: глубокое обучение с разделенными по глубине свертками. [Онлайн] arXiv: 1610.02357. Доступно: arXiv: 1610.02357v2

[15] Набор данных Places2, подробности доступны: http://places2.csail.mit.edu/. См. Также раздел о новых наборах данных.

[16] Hikvision. 2016. Hikvision заняла первое место в классификации сцен на конкурсе ImageNet 2016. [Онлайн] Служба новостей безопасности. Доступно: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/ [дата обращения: 20.03.2017].

[17] Подробнее см. Остаточные сети в четвертой части этой публикации.

[18] Подробности доступны в разделе информации о команде Trimps-Soushen по адресу: http://image-net.org/challenges/LSVRC/2016/results

[19] Се, С., Гиршик, Р., Доллар, П., Ту, З. и Хе, К. 2016. Агрегированные остаточные преобразования для глубоких нейронных сетей. [Онлайн] arXiv: 1611.05431. Доступно: arXiv: 1611.05431v1

[20] ImageNet Large Scale Visual Recognition Challenge (2016), Часть II, Доступно: http://image-net.org/challenges/LSVRC/2016/ [Дата обращения: 22.11.2016]

[21] Ху и Раманан. 2016. В поисках крошечных лиц. [Онлайн] arXiv: 1612.04402. Доступно: arXiv: 1612.04402v1

[22] Лю и др. 2016. SSD: детектор Single Shot MultiBox. [Online] arXiv: 1512.02325v5. Доступно: arXiv: 1512.02325v5

[23] Редмон, Дж. Фархади, А. 2016. YOLO9000: лучше, быстрее, сильнее. [Online] arXiv: 1612.08242v1. Доступно: arXiv: 1612.08242v1

[24] YOLO означает «Ты смотришь только один раз».

[25] Редмон и др. 2016. Вы только посмотрите один раз: унифицированное обнаружение объектов в реальном времени. [Online] arXiv: 1506.02640. Доступно: arXiv: 1506.02640v5

[26] Редмон. 2017. YOLO: Обнаружение объектов в реальном времени. [Веб-сайт] pjreddie.com. Доступно: https://pjreddie.com/darknet/yolo/ [дата обращения: 03.01.2017].

[27] Lin et al. 2016. Функциональные пирамидальные сети для обнаружения объектов. [Online] arXiv: 1612.03144. Доступно: arXiv: 1612.03144v1

[28] Исследование искусственного интеллекта Facebook

[29] Набор данных изображений Common Objects in Context (COCO).

[30] Dai et al. 2016. R-FCN: Обнаружение объектов с помощью полностью сверточных сетей на основе регионов. [Online] arXiv: 1605.06409. Доступно: arXiv: 1605.06409v2

[31] Хуанг и др. 2016. Компромисс между скоростью и точностью для современных детекторов сверточных объектов. [Online] arXiv: 1611.10012. Доступно: arXiv: 1611.10012v1

[32] там же

[33] Wu et al. 2016. SqueezeDet: унифицированные, малые, маломощные полностью сверточные нейронные сети для обнаружения объектов в режиме реального времени для автономного вождения. [Online] arXiv: 1612.01051. Доступно: arXiv: 1612.01051v2

[34] Хонг и др. 2016. PVANet: легкие глубокие нейронные сети для обнаружения объектов в реальном времени. [Online] arXiv: 1611.08588v2. Доступно: arXiv: 1611.08588v2

[35] Официальный сайт DeepGlint. 2016. DeepGlint CVPR2016. [Онлайн] Youtube.com. Доступно: https://www.youtube.com/watch?v=xhp47v5OBXQ [дата обращения: 01.03.2017].

[36] COCO - Общие объекты в общем. 2016. [Веб-сайт] Доступно: http://mscoco.org/ [Дата обращения: 01.04.2017].

[37] Результаты ILSRVC взяты из: ImageNet. 2016. Крупномасштабный конкурс визуального распознавания 2016.

[Веб-сайт] Обнаружение объектов. Доступно: http://image-net.org/challenges/LSVRC/2016/results [дата обращения: 01.04.2017].

[38] Результаты проверки на обнаружение COCO взяты из: COCO - Common Objects in Common. 2016. Таблица лидеров по обнаружению [Веб-сайт] mscoco.org. Доступно: http://mscoco.org/dataset/#detections-leaderboard [дата обращения: 01.05.2017].

[39] ImageNet. 2016. [Онлайн] Презентация семинара, слайд 31. Доступно: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [Дата обращения: 01.06.2017] .

[40] Бертинетто и др. 2016. Полностью сверточные сиамские сети для отслеживания объектов. [Online] arXiv: 1606.09549. Доступно: https://arxiv.org/abs/1606.09549v2

[41] Held et al. 2016. Обучение отслеживанию со скоростью 100 кадров в секунду с помощью сетей глубокой регрессии. [Online] arXiv: 1604.01802. Доступно: https://arxiv.org/abs/1604.01802v2

[42] Дэвид Хелд. 2016. GOTURN - нейросетевой трекер. [Онлайн] YouTube.com. Доступно: https://www.youtube.com/watch?v=kMhwXnLgT_I [дата обращения: 03.03.2017].

[43] Gladh et al. 2016. Функции Deep Motion для визуального отслеживания. [Online] arXiv: 1612.06615. Доступно: arXiv: 1612.06615v1

[44] Гайдон и др. 2016. Виртуальные миры как прокси для анализа слежения за несколькими объектами. [Online] arXiv: 1605.06457. Доступно: arXiv: 1605.06457v1

[45] Ли и др. 2016. Глобально оптимальное отслеживание объектов с помощью полностью сверточных сетей. [Online] arXiv: 1612.08274. Доступно: arXiv: 1612.08274v1