В 2017 году «Крестный отец глубокого обучения» Джеффри Хинтон и его ученики Сара Сабур и Николас Фросст предложили дискриминирующую многослойную капсульную систему CapsNet в своей статье Динамическая маршрутизация между капсулами. производительность при распознавании перекрывающихся цифр в наборе данных MNIST, чем в сверточных сетях, и продолжает привлекать внимание как многообещающее направление исследований в области компьютерного зрения, глубокого обучения и не только.

Хинтон и Сабур теперь совместно разработали неконтролируемую версию капсульной сети в совместных исследовательских усилиях с Оксфордским институтом робототехники. В статье Автоэнкодеры с накоплением в капсулах они показывают, что новый подход может обеспечить самые современные результаты неконтролируемой классификации на SVHN (набор данных номеров домов в просмотре улиц, который включает более 600 тыс. Реальных изображений. номеров домов из Google Street View Images); и почти ультрасовременные характеристики набора рукописных цифр MNIST.

Подобно модулям человеческого мозга, капсулы чрезвычайно хорошо понимают и кодируют нюансы, такие как поза (положение, размер, ориентация), деформация, скорость, альбедо, оттенок, текстура и т. Д. Капсульная система понимает объект, интерпретируя организованный набор геометрически взаимосвязанные части. Поскольку эти геометрические отношения остаются неизменными, система может полагаться на них для идентификации объектов даже при изменении точки обзора, т.е. инвариантности перевода.

Исследователи использовали неконтролируемую версию капсульной сети, где нейронный кодировщик, обученный с помощью обратного распространения, просматривает все части изображения, чтобы сделать вывод о наличии и позы объектных капсул.

Исследователи разработали свои автоэнкодеры с накоплением капсул (SCAE) в три этапа:

  • При использовании автоэнкодера Constellation (CCAE) модель обучается без присмотра за счет максимального увеличения вероятности частичных капсул с ограничениями по разреженности.
  • Автокодировщик капсул частей (PCAE) сегментирует изображение на части и определяет позы.
  • Автоэнкодер капсулы объектов (OCAE) объединяет обнаруженные части с позами в более мелкие наборы.

Наконец, исследователи разместили OCAE поверх PCAE, чтобы сформировать SCAE, который определяет и фиксирует пространственные отношения между целыми объектами и частями.

Исследователи заметили, что векторы вероятностей присутствия для капсул объектов с большей вероятностью образуют плотные кластеры, и присвоение класса каждому плотному кластеру может дать такие характеристики, как современные и близкие к современным результатам. в неконтролируемой классификации по SVHN и MNIST соответственно. Исследователи также заметили, что SCAE еще больше улучшила эти два набора данных (с 55% до 67% и с 98,5% до 99%), изучив менее 300 параметров.

Исследование демонстрирует SCAE как новый метод изучения представлений, в котором высокоструктурированные сети декодеров обучают как сеть кодировщика, которая может сегментировать изображения на части и их позы, так и сеть кодировщиков, которая может составлять эти части в согласованные целые.

Статья Автоэнкодеры с накоплением в капсулах находится на arXiv.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.