Я только что вернулся с конференции CVPR 2018, проходившей 18–22 июня 2018 г. в Солт-Лейк-Сити, штат Юта, США. CVPR — одна из ведущих конференций по компьютерному зрению и распознаванию образов, и в этом году я получил более 3300 статей, из которых 979 были приняты — коэффициент приемлемости 29,6%. Почти 6512 человек (рекорд на данный момент) посетили пятидневные семинары, учебные пособия, постерные сессии, полные устные и устные сессии в центре внимания. Конференция также привлекла многочисленных спонсоров с почти $2 000 000 спонсорских средств (еще один рекорд).

Современное компьютерное зрение во многом основано на глубоком обучении, поэтому большинство работ, представленных на этой конференции (по крайней мере, среди тех, что мне довелось увидеть).

В этом посте я поделюсь своими личными заметками и кратко обобщу тенденции этой конференции, сосредоточившись на том, что больше всего привлекло мое внимание.

Были популярны неконтролируемые или слабо контролируемые методы, что указывает на то, что исследователи думают о том, чтобы обойти необходимость делать дорогостоящую плотную маркировку наборов данных, что является одним из недостатков обучения с учителем. Очевидно, что контролируемое обучение очень важно, но иногда супервизия также может быть необъективной или подвергаться интерпретации. Тем не менее, команда из Google представила учебник по визуальному обучению без присмотра.

Поскольку невозможно решить все проблемы без присмотра, они также кратко обсудили обучение с самоконтролем, которое особенно хорошо подходит для роботизированных приложений (по словам докладчика).

Наряду с большим количеством интересных исследований были объявлены некоторые захватывающие наборы данных. Например, в статье Форсаж: сквозное 3D-обнаружение, отслеживание и прогнозирование движения в реальном времени с помощью единой сверточной сети авторы (из Uber ATG и Университета Торонто) представляют впечатляющий набор данных (Uber TOR4D ) для оценки 3D-обнаружения, отслеживания и прогнозирования движения. Набор данных на 2 порядка больше, чем наборы данных, такие как KITTI, и состоит из более чем 540 000 кадров, собранных из 2762 различных сцен. Сообщается, что в ближайшее время он будет обнародован.

Подходы спутникового изображения также были весьма популярны на конференции. Задача глубокий глобус была хорошим примером растущего внимания к картам и анализу населения с использованием спутниковых изображений. Очевидно, речь идет о соответствующих победителях в каждой категории конкурса, D-LinkNet: LinkNet с предварительно обученным кодировщиком и Расширенная свертка для спутниковых изображений высокого разрешения. Извлечение дорог и обнаружение зданий со спутника. Изображения с использованием ансамбля детекторов определенного размера были интересными. Но на той сессии мое внимание привлекла презентация Карта экономического развития из космоса. В этом выступлении ведущий показывает, как анализ ночного освещения по спутниковым снимкам можно использовать в качестве индикатора развития. В основном они фокусируются на интенсивности ночного освещения. Авторы также разработали модель глубокого обучения для прогнозирования производительности сельского хозяйства в США, и, согласно их результатам, производительность модели весьма впечатляет.

Многие подходы к сегментации или подходы на основе GAN также были показаны на CVPR:

• Deep Extreme Cut: от крайних точек к сегментации объекта

• Интерактивная сегментация изображений со скрытым разнообразием

• Лучшее из обоих миров: сочетание CNN и геометрических ограничений для иерархической сегментации движения.

• Изучение прогрессии Face Age: пирамидальная архитектура GAN

• GANerated Hands для трехмерного отслеживания рук в режиме реального времени с помощью монокуляра RGB

• Передача человека по GAN для перекрытия разрыва домена для повторной идентификации человека

• Super-FAN: интегрированная локализация лицевых ориентиров и супер-разрешение реальных лиц с низким разрешением в произвольных позах с помощью GAN.

• …

Доступ к большинству документов CVPR можно получить по следующей ссылке:

http://openaccess.thecvf.com/menu.py или на IEEE Xplore.

В целом, CVPR в этом году был очень интересным, с большим количеством качественного контента и намного большим, чем раньше. Во время конференции были небольшие технические трудности и задержки, но в целом, на мой взгляд, она удалась. В заключение я должен упомянуть рисование карикатурных портретов во время мероприятия, которое просто потрясающе и сделало мой день в четверг 21-го!