Ограничения нашей самоуправляемой тележки для гольфа на основе глубокого обучения

После нашей сломанной демонстрации в прошлую среду мой партнер Майкл Менг воскликнул: «Нет никакой надежды на глубокое обучение». Майкл, будущее не такое уж мрачное, но вы правы, у глубокого обучения есть недостатки, а у нашей собственной самоуправляемой тележки для гольфа на основе глубокого обучения, безусловно, много недостатков.

Сегодня я хотел бы обсудить некоторые из этих недостатков и то, как мы их исправим в будущем.

Глубокое обучение и компьютерное зрение

Если вам интересно, точный жаргон для нашего алгоритма — это контролируемое машинное обучение и поведенческое клонирование с помощью сверточных нейронных сетей. Что означают эти слова?! Во-первых, компьютерные знания из помеченных данных о вождении человека. Во-вторых, алгоритм сам извлекает признаки, мы не говорим ему, какие признаки искать. Каким бы сильным он ни был, у него много недостатков.

Сегодня я в основном сосредоточусь на управлении ConvNet, если вы хотите ознакомиться с моим обсуждением сети сегментации, вы можете найти его здесь.

Наш набор данных доставил нам много проблем. Проще говоря, знание того, что алгоритм, извлеченный из нашего обучающего набора данных, не может быть перенесен в нашу среду тестирования. Наш набор данных содержит около 60 000 кадров данных о вождении в Калифорнии. Погодные условия в основном солнечные и немного пасмурные.

Зимняя погода в Новой Англии лишь немного отличается от калифорнийской. 🤔
Во-вторых, исходя из наших симуляций, сеть хорошо справляется с обнаружением и отслеживанием линий движения. (неудивительно). Облом, на подъездных дорожках Дирфилда нет полос движения. 😕
В-третьих, сеть плохо работает с тенями. Опять же, это распространенная проблема в глубоком обучении и компьютерном зрении. Существуют такие методы, как увеличение изображения, которое пытается решить проблему переобучения. В нашей системе тележка работала хорошо, без теней и с приличным освещением. Однако, когда окружающая среда, особенно условия освещения, меняются, алгоритмы распадаются. Мне больно писать об этом, потому что именно эту проблему и пытается решить глубокое обучение: неотъемлемое ограничение извлеченных человеком признаков, методы компьютерного зрения старой школы. (Я говорю это, зная, что глубокое обучение в большинстве случаев превосходит эти старые методы)

Точно так же, как и в классе, мы хотим применить полученные знания в реальном мире. У нашей модели с этим плохо.

Эти проблемы показывают, насколько ограниченной может быть модель глубокого обучения. Отсутствие соответствующих данных является распространенной проблемой в глубоком обучении. Если вы увлекаетесь математикой, ознакомьтесь с компромиссом между дисперсией и байсом. Дополнительные и более качественные данные для обучения с некоторыми улучшениями в сетевой архитектуре частично решат эти проблемы.

Уроки робототехники и инженерии

Я знаю, что этот пост должен быть о глубоком обучении, но я просто хочу добавить некоторые инженерные вещи. Из этого проекта можно многое узнать о робототехнике и технике.

Больше всего раздражает ситуация, когда вы прекрасно знаете производительность своей системы, но она недостаточно надежна, чтобы воспроизвести эту идеальную производительность.

Мы осознали силу и важность резервирования и надежности. (вообще говоря, мы стараемся избегать избыточности в жизни). В инженерии избыточность — это дублирование критических компонентов или функций системы с целью повышения надежности системы, обычно в форме резервного копирования или отказоустойчивости, или для повышения фактической производительности системы.

Во-первых, у нас была только одна камера на передней части автомобиля. Нам нужно добавить больше. Мы, люди, не просто полагаемся на один глаз, чтобы ощущать мир. Наше зрение, слух, соматические ощущения, вкус и обоняние работают вместе, чтобы помочь нам ориентироваться в этом мире. Не только с инженерной точки зрения, увеличение количества и разнообразия датчиков может повысить надежность, а также устойчивость процесса принятия решений тележкой.

Во-вторых, хоть мы и гордимся своим рулевым механизмом, разработанным по индивидуальному заказу, он далек от совершенства. Неточность системы рулевого управления, безусловно, мешала надежному управлению автомобилем. Если вы повернете шестерню только на небольшую величину, это не приведет к правильному движению колеса. По сути, тележка может выполнять только большие корректировки, потому что небольшие не будут иметь никакого реального влияния на направление движения транспортного средства.

Что мы будем делать?

Учитывая все вышесказанное, я все еще возлагаю большие надежды на глубокое обучение и компьютерное зрение. Некоторые из вышеперечисленных проблем уникальны для нашей собственной системы, некоторые из этих вопросов годами ставили исследователей в тупик. Я действительно верю, что с помощью глубокого обучения можно будет питать автономные транспортные средства, конечно, не только с камерами. (Посмотрите бумагу Apple о лидаре и глубоком обучении.)

Мы рассматриваем следующие

улучшить наш рулевой механизм.
добавить больше камеры и других датчиков. (радар, лидар?)
собрать собственный набор данных в Дирфилде.
улучшить сетевую архитектуру. (попробовать ConvLSTM?)
использовать результаты сегментации, чтобы управлять тележкой
использовать GPS для глобального планирования пути

Если вам понравился пост, пожалуйста, нажмите кнопку Мне нравится ниже. Если у вас есть какие-либо вопросы, комментарии или опасения, не стесняйтесь оставлять комментарии ниже или обращаться ко мне по адресу [email protected]. Спасибо, что зашли!

Первоначально опубликовано на neilnie.com 7 марта 2018 г.

Ограничения нашей самоуправляемой тележки для гольфа на основе глубокого обучения

Глубокое обучение и компьютерное зрение

Уроки робототехники и инженерии

Что мы будем делать?

Вопросы по теме