Как 22-летний юноша из Шанхая выиграл глобальный конкурс глубокого обучения

Во втором общедоступном исследовании участники конкурса столкнулись с использованием глубокого обучения для решения алгоритма обнаружения транспортных средств, который может адаптироваться к изменениям. Исследователи со всего мира должны были проверить свои навыки, выиграть призы (1-е место 5 000 долларов США, 2-е место 2 000 долларов США, 3-е место 1 000 долларов США) и присоединиться к нашей миссии по повышению безопасности на дорогах. Нас впечатлили стойкость и энтузиазм наших соперников, а также поразительные результаты, которых они достигли.

Nexar создает крупнейшую в мире открытую сеть транспортных средств (V2V), превращая смартфоны в подключенные видеорегистраторы с ИИ. Объединяя глубокое обучение с миллионами миль за рулем, собранных нашими пользователями, технология Nexar обеспечивает новый, более безопасный опыт вождения с потенциалом спасения жизней 1,3 миллиона человек, которые ежегодно умирают на дорогах мира.

Сегодня мы рады официально объявить победителей второго конкурса Nexar Challenge ( Обнаружение транспортных средств в дикой природе с использованием набора данных NEXET) и рассказать их истории.

Соревнование

В Nexar мы создаем расширенную систему помощи водителю (ADAS), основанную на потоке монокулярной камеры с обычных потребительских видеорегистраторов, установленных на автомобилях по всей планете. Эти камеры непрерывно делают снимки мировых дорог при любой погоде, освещении и сценариях вождения.

В этом задании мы попросили участников создать функцию детектора заднего транспортного средства, которая вычисляет ограничивающие рамки вокруг каждого четко видимого транспортного средства впереди. Детектор должен искать транспортное средство (а) перед камерой, которое движется в том же направлении, что и водитель. Цель этой задачи восприятия - улучшить функцию предупреждения о лобовом столкновении Nexar, которая требует очень точного ограничивающего прямоугольника вокруг задней части впереди идущего (-ых) автомобиля (-ов).

Набор данных NEXET

Для решения этой задачи мы выпустили один из самых больших и разнообразных наборов дорожных данных в мире. Наше видение мира без столкновений - это глобальная групповая работа, и поэтому мы решили предоставить часть наших тренировочных данных другим исследователям, чтобы они могли извлечь пользу из огромных изображений и видео, которые Nexar собирает ежедневно.

Набор данных был выпущен для наших участников, и вскоре он будет доступен в виде бесплатного набора данных для исследователей по всему миру. См. Это сообщение в блоге для получения дополнительной информации об этом наборе данных: NEXET - Самый большой и самый разнообразный набор данных о дорогах в мире

Полученные результаты

Мы открыли эту задачу для исследователей со всего мира и были рады видеть, что революция в области глубокого обучения ИИ распространяется на самые отдаленные уголки земного шара. Мы видели исследователей из России, Индии, США и Израиля, пару из Боливии, Бангладеш, Малайзии, Марокко и 40 других стран, а также победителей из Китая, Австралии и Южной Кореи.
Это была жесткая конкуренция с более 400 заявителей оспаривают и 29 заявок; мы видели сети, варьирующиеся от SSD на базе VGG весом 97 МБ, до ансамбля сетей 771 МБ и до победившего Deformable R-FCN на основе Resnet весом всего 130 МБ.

Вот интересная статистика о результатах испытаний:

Мы видели использование нескольких фреймворков. TensorFlow был фаворитом наших участников, и его использовали более половины из них.

У нас было множество сетей, в том числе ансамбли из нескольких сетей, что привело к очень большим моделям, но в конце концов мы увидели, что размер, как правило, не имеет значения.

Большинство наших участников использовали Faster RCNN для своей модели, которая дала различные оценки от 0,5 до 0,77. Но нашим явным победителем стал Deformable R-FCN со средним баллом 0,8.

Соревнование было ожесточенным. Наши участники продолжали расширять границы своих сетей, улучшая их снова и снова. Наконец, менее чем за час до закрытия подачи заявок 22-летнему старшему выпускнику Университета Фудань, Шанхай, Китай, удалось набрать наивысший балл, опередив все великие умы, принимавшие участие в испытании.

Мы позволим ведущим участникам взять это отсюда.

1-е место (5000 долларов): Хэндуо Ли (Генри)

«В настоящее время учится на старших курсах университета Фудань, Шанхай, Китай. Меня интересует компьютерное зрение, и я потратил несколько дней на такие темы, как обнаружение человека, обнаружение объектов и т. Д. Я надеюсь продолжить работу над этими темами в моем будущем исследовании, которое поможет нам в нашей реальной жизни, например, что делает Nexar :) ”

«Я использовал Deformable R-FCN с soft-NMS для этой задачи. Одна модель обучается из ResNet-50, предварительно обученная на ImageNet ».

Выводы:

1. Deformable Convnets и R-FCN - мощные средства, обеспечивающие высочайшую производительность в ImageNet и COCO. Мне не понадобилось использовать ансамбль. Если использовать ensemble и ResNet-101 вместе с некоторыми дополнительными приемами, производительность может быть лучше.

2. Горизонтальное переворачивание обучающих изображений работает хорошо. Я перевернул все данные тренировки по горизонтали и использовал их. Это уже общепринятый метод увеличения данных.

3. Анкеры малых размеров. Просматривая данные обучения, я увидел много маленьких прямоугольников и решил добавить больше якорей небольшого размера. Это сработало.

4. Многомасштабное тестирование. Обычно это увеличивает производительность примерно на 2%. Я тренировался на 720, тестировал (600, 720, 1000) и получил улучшение производительности.

2-е место (2000 долларов): Дмитрий Поплавский
Брисбен, Австралия

Возраст: 38

Проживает: Брисбен, Австралия

Образование: магистр радиофизики и электроники.

«Я инженер-программист, недавно заинтересовавшийся машинным обучением.

«По сути, исходный код состоит из

1) Deformable ConvNets модификация Faster-RCNN от https://github.com/msracver/Deformable-ConvNets

Я внес несколько незначительных изменений, в том числе адаптер для чтения набора данных Nexar, возможность отключения не максимальной стадии подавления и небольшой скрипт для выполнения нескольких прогнозов.

2) Несколько служебных скриптов для подготовки дополнений набора данных и обратного преобразования результатов.

3) Внедрение настраиваемой гибкой не максимальной стадии подавления ».

Take Aways

Я решил использовать модификацию Deformable ConvNets Faster-RCNN или R-FCN.
Поскольку было разрешено изменять / маркировать набор обучающих данных, я сначала проверил, как можно улучшить обучающие данные.
Размер и характер этикеток сделали ручную повторную этикетку нецелесообразной.
Я разделил набор обучающих данных на две части и обучил модели R-FCN каждой группе.
Я сравнил прогнозы «вне складки» с исходными метками и обнаружил все блоки, в которых моя модель была уверена, но которых не было в наборе обучающих данных.
Я обнаружил, что почти во всех случаях это означает отсутствие ярлыка.
Я отсортировал тренировочные изображения по количеству пропущенных ящиков и пометил ~ 15–20% изображений, пропустив большинство ящиков, в худшем случае - до 8 автомобилей.
Поскольку модель создавала довольно точные блоки, мне нужно было только выбрать, какие предсказанные блоки добавить в набор обучающих данных, так что это был относительно быстрый процесс.
Я решил использовать Faster-RCNN, поскольку он дает мне немного лучший результат по сравнению с R-FCN.
Я планировал попробовать подход Soft NMS, описанный в https://arxiv.org/abs/1704.04503
Я расширил первоначальную идею Soft NMS, чтобы настроить не только достоверность, но и расположение ящиков.
Я проверил результаты Faster-RCNN перед этапом NMS и обнаружил, что он часто генерирует ряд закрытых блоков с аналогичной уверенностью и положением.
Отбрасывать все результаты, кроме верхней границы уверенности, звучит немного расточительно. Даже больше, если объединить прогнозы на основе нескольких моделей или увеличение времени тестирования.

Итак, мой гибкий подход к NMS:

1) Чтобы получить верхнюю уверенность, объедините ее со всеми другими подобными блоками с iou> 0,8, с положением блока как средневзвешенным значением положения блока с достоверным весом.

2) Для уверенности комбинированного ящика я использовал conf = sum (conf до N верхних ящиков) / N

Это особенно полезно для объединения нескольких результатов. Я хотел бы наложить штраф на результаты, найденные только в одной сети, по сравнению с более достоверными результатами, предсказанными большим количеством сетей / блоков в одной сети.

Я использовал N == 4 * количество комбинированных прогнозов.

3) Для всех других полей, перекрывающихся с текущим окном, я скорректировал достоверность, как описано в исходной статье программного обеспечения nms.

В целом этот подход позволил мне повысить оценку с ~ 0,72–0,73 с одной моделью и NMS по умолчанию до 0,77–0,78 с ~ 6 прогнозами, объединенными из 2 разных моделей с использованием гибкой NMS.

Для моей последней заявки я обучил 3 модели Faster RCNN, и для каждой предсказал все изображения, перевернутые и измененные на + -20%.

Я объединил все результаты с отключенной исходной NMS и последующей обработкой с помощью гибкой NMS.

3-е место (1000 долларов США): Пак Сан Джин

Сеул, Южная Корея

Возраст: 40

Проживает: Сеул, Южная Корея (ROK)

Образование: Физика / CS B.S KAIST

Take Aways

«Чтобы избежать переобучения, я использовал слои Dropout, а также дополнительные данные, такие как горизонтальный переворот, поворот и масштабирование».
«Что касается рабочих инструментов, то после попытки использовать Tensorflow напрямую я переключился на Keras вместе с записными книжками Python, что очень помогло экспериментировать и визуализировать».
«Обрезка - у меня было ощущение, что обрезка нижней части изображения может помочь в обучении, но, похоже, это на самом деле ухудшило обучение».
«Я провел много часов, работая с инстансами Amazon GPU, что помогло мне поэкспериментировать, но, в конце концов, поскольку размер модели должен был оставаться небольшим, эксперименты на моем собственном ноутбуке были быстрыми».

Особое упоминание: Нику Сергиевскому удалось получить отличный результат 0,78, используя подход на основе SSD. К сожалению, это не соответствовало условиям нашего конкурса. Смотрите его проект здесь: https://github.com/dereyly/caffe.

Еще раз поздравляем наших победителей! Мы хотим поблагодарить всех участников нашего конкурса за участие в нашей миссии по построению мира без столкновений. Мы надеемся, что этот вызов помог вам развить свои навыки и дал вам почувствовать то, что мы делаем здесь, в Nexar. Следите за нашим следующим испытанием!

Как 22-летний юноша из Шанхая выиграл глобальный конкурс глубокого обучения

Соревнование

Набор данных NEXET

Полученные результаты

1-е место (5000 долларов): Хэндуо Ли (Генри)

Выводы:

2-е место (2000 долларов): Дмитрий Поплавский Брисбен, Австралия

Take Aways

3-е место (1000 долларов США): Пак Сан Джин

Сеул, Южная Корея

Take Aways

Вопросы по теме

2-е место (2000 долларов): Дмитрий Поплавский
Брисбен, Австралия