Встроенная маска R-CNN для улучшенного визуального распознавания агентов

Новая модель для прогнозирования категории объекта, амодальной ограничивающей рамки и амодальной маски во время навигации

Это краткое изложение исследования – лишь одно из многих, которые еженедельно публикуются в информационном бюллетене для ученых, занимающихся искусственным интеллектом. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Знаете ли вы, что малыши в возрасте от 4 до 7 месяцев способны активно менять точки зрения, чтобы изучать объекты? Люди обладают замечательной способностью визуального распознавания, чтобы понять как форму, так и семантику закрытых объектов из одного изображения. Кроме того, они могут перемещаться в окружающей среде и активно контролировать угол обзора, чтобы еще больше помочь визуальному распознаванию.

Другое дело искусственные агенты, поскольку они не могут распознавать объекты в амодальной обстановке, где они сильно закрыты.

Встроенное визуальное распознавание (EVR)

Для того чтобы воплощенные агенты понимали свое окружение, крайне важно улучшить их способности к визуальному распознаванию, а также их стратегические пути движения, которые отличаются от кратчайших путей. EVR — это новый подход, при котором такие агенты могут динамически перемещаться в трехмерной среде для правильного визуального распознавания определенного целевого объекта.

Агент создается в трехмерной среде рядом с закрытым целевым объектом и может свободно перемещаться в среде для выполнения классификации объектов, амодальной локализации объекта и амодальной сегментации объекта. Чтобы достичь всего этого, исследователи разработали новую модель (Embodied Mask R-CNN) для агентов, чтобы научиться стратегически двигаться, чтобы улучшить свои способности визуального распознавания.

Модель была оценена в среде House3D, и результаты показывают, что встроенные агенты могут добиться более высокой производительности визуального распознавания с помощью EVR.

Возможное использование и эффекты

Визуальное воплощение важно для понимания сцены и точной навигации. Благодаря предложенным трем подзадачам дизайна — распознаванию объектов, амодальному восприятию, локализации и сегментации — подход EVR, несомненно, обладает большим потенциалом для улучшения систем машинного зрения следующего поколения.

Подробнее: https://arxiv.org/abs/1904.04404

Спасибо за чтение. Пожалуйста, комментируйте, делитесь и не забывайте подписаться! Кроме того, подписывайтесь на меня в Twitter и LinkedIn. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!