Мы близки к завершению работы над системой восприятия нашего стека автономии, хотя мы собираемся поделиться всеми доступными фреймворками глубокого обучения и моделями сегментации. Мы использовали несколько из них каждый день, но есть также несколько фреймворков, которые мы еще не использовали. Некоторые из известных, такие как TensorFlow, Keras, Pytorch, MxNet и т. Д., Очень популярны, некоторые устаревшие фреймворки, такие как theano, Caffe и т. Д., И некоторые из них могут работать даже в вашем браузере. Мы постарались охватить всю структуру, если нам не хватает какой-либо доступной, сообщите нам об этом в комментарии, чтобы мы могли включить ее в этот блог. Мы также работали над Семантической сегментацией, поэтому мы обсудили все доступные модели сегментации.

Рамки глубокого обучения:

Tensorflow - одна из самых популярных библиотек для глубокого обучения, tensorflow, была разработана командой Google Brain и открыта в 2015 году. Позиционируется как система машинного обучения второго поколения, tensorflow - это библиотека на основе Python, которая может работать на нескольких процессорах и графических процессорах. Он доступен на всех платформах, настольных и мобильных. Он также поддерживает другие языки, такие как C ++ и R, и может использоваться непосредственно для создания моделей глубокого обучения или с использованием библиотек-оболочек поверх него.

Keras. Хотя TensorFlow - очень хорошая библиотека для глубокого обучения, создание моделей с использованием только тензорного потока может быть проблемой, поскольку это довольно низкоуровневая библиотека и может быть довольно сложной для использования новичком. . Чтобы решить эту проблему, Keras был построен как упрощенный интерфейс для построения эффективных нейронных сетей всего в несколько строк кода, и его можно настроить для работы поверх TensorFlow. Написанный на python, keras очень легкий, простой в использовании и довольно простой в освоении. По этим причинам tenorflow включил эры как часть своего основного API.

Caffe - построенный с учетом экспрессии, скорости и модульности, caffe является одной из первых библиотек глубокого обучения, разработанных в основном Berkeley Vision and Learning Center (BVLC). Это библиотека C ++, которая также имеет интерфейс Python и находит свое основное применение в моделировании сверточных нейронных сетей. Одним из основных преимуществ использования этой библиотеки является то, что можно получить ряд предварительно обученных сетей непосредственно из зоопарка Caffe Model Zoo, доступных для немедленного использования. Эта библиотека эффективна при моделировании CNN или решении задач обработки изображений. Следуя по стопам Caffe, Facebook также недавно открыл Caffe2, новую легкую модульную структуру глубокого обучения, которая предлагает большую гибкость для создания высокопроизводительных моделей глубокого обучения.

Torch - это фреймворк глубокого обучения на основе Lua, который использовался и разрабатывался такими крупными игроками, как Facebook, Twitter и Google. Он использует библиотеки C / C ++, а также CUDA для обработки на графическом процессоре. Torch был создан с целью обеспечить максимальную гибкость и максимально упростить процесс создания моделей. Совсем недавно реализация Torch на языке Python под названием PyTorch стала популярной и получает быстрое распространение.

PyTorch - пакет Python для построения глубоких нейронных сетей и выполнения сложных тензорных вычислений. В то время как Torch использует Lua, PyTorch использует растущую популярность Python, чтобы позволить любому, кто владеет базовым языком программирования Python, приступить к глубокому обучению. PyTorch улучшает архитектурный стиль Torch и не поддерживает контейнеры, что делает весь процесс глубокого моделирования более простым и прозрачным.

Deeplearning4j - DL4j - популярный фреймворк глубокого обучения, разработанный на Java и также поддерживающий другие языки JVM. Это очень удобная платформа, которая очень широко используется в качестве коммерческой отраслевой распределенной платформы глубокого обучения. Преимущество использования DL4j заключается в том, что можно объединить мощь всей экосистемы Java для эффективного глубокого обучения, поскольку оно может быть реализовано поверх популярных инструментов для работы с большими данными, таких как Apache Hadoop и Apache Spark.

MXNet - одна из наиболее поддерживаемых языков фреймворков глубокого обучения с поддержкой таких языков, как R, Python, C ++ и Julia. Это полезно, потому что, если человек не знает ни одного из этих языков, ему вообще не нужно выходить из своей зоны комфорта, чтобы тренировать свои модели глубокого обучения. Его бэкэнд написан на C ++ и cuda и может управлять собственной памятью, как Theano. MXNet также популярен, потому что он очень хорошо масштабируется и может работать с несколькими графическими процессорами и компьютерами, что делает его очень полезным для предприятий. Это также одна из причин, по которой Amazon сделал MXNet своей справочной библиотекой для глубокого обучения. В ноябре AWS объявила о доступности ONNX-MXNet, который представляет собой пакет Python с открытым исходным кодом для импорта моделей глубокого обучения ONNX (Open Neural Network Exchange) в Apache MXNet.

CNTK - это набор инструментов глубокого обучения с открытым исходным кодом для обучения моделей глубокого обучения. Он оптимизирован и поддерживает такие языки, как Python и C ++. Известный своим эффективным использованием ресурсов, с помощью Cognitive Toolkit можно легко реализовать эффективные модели обучения с подкреплением или генерирующие состязательные сети (GAN). Он разработан для достижения высокой масштабируемости и производительности и, как известно, обеспечивает высокий прирост производительности по сравнению с другими наборами инструментов, такими как Theano и Tensorflow, при работе на нескольких машинах.

Deeplearn.js - с deeplearn.js теперь можно обучать модели нейронных сетей прямо в браузере! Первоначально разработанная командой Google Brain, deeplearn.js - это библиотека глубокого обучения с открытым исходным кодом на основе JavaScript, которая работает как на WebGL 1.0, так и на WebGL 2.0.

BigDL - распространяется библиотека глубокого обучения для Apache Spark и очень хорошо масштабируется. С помощью BigDL можно запускать приложения глубокого обучения непосредственно в кластерах Spark или Hadoop, написав их как программы Spark. Он имеет обширную поддержку глубокого обучения и использует Math Kernel Library (MKL) Intel для обеспечения высокой производительности. Используя BigDL, можно также загрузить в Spark предварительно обученные модели Torch или Caffe. Если кто-то хочет добавить функции глубокого обучения к огромному набору данных, хранящихся в кластере, это очень хорошая библиотека для использования.

Модели сегментации:

SegNet - это архитектура глубокого кодировщика-декодера для мультиклассовой пиксельной сегментации, исследованная и разработанная членами группы компьютерного зрения и робототехники Кембриджского университета, Великобритания.

ICNet - он находит множество практических применений, но с фундаментальной трудностью сокращает большую часть вычислений для пиксельного вывода меток. Каскадная сеть изображений (ICNet) на основе сжатой PSPNet включает ветви с несколькими разрешениями под надлежащим руководством по маркировке для решения этой проблемы. Система дает логический вывод в реальном времени на одной карте графического процессора с результатами приличного качества, оцененными на сложном наборе данных Cityscapes.

RCNN - этот подход представляет собой комбинацию двух ключевых идей: (1) можно применять сверточные нейронные сети (CNN) с высокой пропускной способностью к предложениям восходящей области, чтобы локализовать и сегментировать объекты и ( 2) при недостатке размеченных обучающих данных контролируемое предварительное обучение для вспомогательной задачи с последующей точной настройкой для конкретной предметной области дает значительный прирост производительности. Поскольку мы комбинируем предложения регионов с CNN, мы называем наш метод R-CNN: Regions with CNN features. Мы также сравниваем R-CNN с OverFeat, недавно предложенным детектором со скользящим окном, основанным на аналогичной архитектуре CNN. Мы обнаружили, что R-CNN с большим отрывом превосходит OverFeat в наборе данных обнаружения ILSVRC2013 класса 200.

Остаточные сети с полным разрешением (FRRN) - используется для семантической сегментации, архитектура, подобная ResNet, демонстрирует высокую производительность локализации и распознавания. Они объединили многомасштабный контекст с точностью на уровне пикселей за счет использования двух потоков обработки в сети: один поток несет информацию с полным разрешением изображения, обеспечивая точное соблюдение границ сегментов. Другой поток подвергается последовательности операций объединения, чтобы получить надежные функции для распознавания. Два потока соединяются с полным разрешением изображения с использованием остатков. Без дополнительных этапов обработки и без предварительной подготовки наш подход работает намного лучше.

Сеть анализа сцены пирамиды - возможность получения глобальной контекстной информации путем агрегирования контекста на основе разных регионов через наш модуль объединения пирамид вместе с предлагаемой сетью анализа сцены пирамиды (PSPNet). Наше глобальное предварительное представление эффективно для получения результатов хорошего качества при выполнении задачи синтаксического анализа сцены, в то время как PSPNet обеспечивает превосходную структуру для задач прогнозирования на уровне пикселей. Предлагаемый подход обеспечивает высокую производительность на различных наборах данных. Он стал первым в тесте ImageNet Scene Parsing Challenge 2016, тесте PASCAL VOC 2012 и тесте Cityscapes. Единственная сеть PSPNet дает новый рекорд точности в миллионах единиц на PASCAL VOC 2012 - 85,4%, а на Cityscapes - 80,2%.

Вышеупомянутая работа была выполнена Нидхи Саксена

Мы начали Giscle, чтобы принести изменения, которых мы хотели, как студент как подросток как гражданин, и чтобы построить будущее, в котором мы хотел жить. А если вы также хотите внести изменения и построить будущее, поделитесь, пожалуйста, своим энтузиазмом по адресу [email protected]