Видение — это чувство настолько естественное для многих из нас, что легко принять как должное его сложность. Наши глаза — это не просто камеры, снимающие мир: мы полагаемся на врожденную способность интерполировать недостающие части, различать людей и объекты, различать отдельные предметы, определять расстояния и обнаруживать движение.

Эти способности работают в тандеме с нашими знаниями и полученным опытом, чтобы интерпретировать то, что мы видим, и определять соответствующие реакции на постоянно меняющуюся и непредсказуемую среду. Точно так же, чтобы автономный автомобиль мог эффективно понимать и использовать визуальную информацию, которую он собирает, его визуальная система должна состоять не только из камер.

Система человеческого зрения

Многое из того, что мы знаем о неврологии, получено благодаря изучению поврежденного мозга. Например, акинетопсия, или слепота движения, — это расстройство, из-за которого человеку трудно воспринимать движение, даже если он прекрасно видит неподвижные объекты. Проблема заключается не в самой первичной зрительной коре, а в других специализированных участках мозга, обрабатывающих зрительные стимулы.

Другое расстройство, первичная зрительная агнозия, возникает, когда человек не может распознавать или различать объекты или лица. Опять же, их глаза могут работать просто отлично — все входные данные принимаются без проблем — но есть дефект в той части их мозга, которая обрабатывает эту информацию и определяет, какие фрагменты визуального ввода различают разные объекты.

Существует также когнитивная способность, предназначенная для определения соответствующих действий и реакций на стимулы. Если кто-то бросает вам мяч, вы используете свою систему зрения, чтобы увидеть мяч, распознать, что это мяч, проанализировать его движение и двигать руками так, чтобы поймать его.

Точно так же, если вы переходите улицу и к вам приближается машина, не снижая скорости, вы можете среагировать и уйти с дороги. Это то, чего вы не смогли бы достичь, если бы какая-либо часть системы не работала должным образом. Отсутствие зрения, отсутствие различения объектов, отсутствие обнаружения движения или отсутствие реакции — все это может привести к фатальной ошибке. То же самое и с системами обзора в автономных автомобилях.

Визуальный сбор данных для автономных автомобилей

Компьютерное зрение для автономных автомобилей начинается со сбора визуальных данных — и очень много. Когда дело доходит до обучения беспилотного автомобиля зрению, чем больше данных можно использовать, тем лучше. Автомобили, которые собирают данные для этого варианта использования, обычно используют комбинацию удаленных технологий, в том числе:

  • Камеры, которые могут записывать двухмерные и трехмерные визуальные изображения, позволяющие идентифицировать объекты. Несколько камер также используют параллакс для определения расстояний.
  • Радар, использующий длинноволновые радиоволны. Излучается сигнал, и, измеряя отраженный сигнал, можно обнаружить движение с помощью эффекта Доплера и измерить расстояние до объекта. Радар хорошо работает в условиях плохой видимости, потому что радиоволны способны проникать сквозь туман и дождь. Однако радар обычно дает изображения с низким разрешением.
  • LiDAR (расшифровывается как Light Detection and Ranging) похож на радар тем, что включает в себя излучение сигнала и обнаружение отражения, но использует лазерный свет гораздо более высокой частоты. Эта более высокая частота обеспечивает гораздо лучшее разрешение, хотя это достигается за счет функциональности в условиях плохой видимости.

Системы обычно располагаются в нескольких местах автомобиля с перекрывающимися полями зрения, чтобы обеспечить более полное понимание целевой области. Такое сочетание разнообразия и избыточности помогает устранить ошибки, которые могут быть вызваны дефектом любого отдельного устройства, включая простые проблемы, такие как загрязнение объектива камеры.

В целом автономный автомобиль должен иметь непрерывный поток визуального ввода, включающий все окружающие его 360 градусов. Более того, он может собирать данные, невидимые человеческому глазу, с использованием более специализированных камер в сочетании с радарами и системами LiDAR.

Очистка данных и аннотация

Чтобы научить автономный автомобиль видеть, люди должны обработать и подготовить данные, собранные из этих источников, и структурировать их для использования в обучении автономной системы для интерпретации и понимания визуального мира, отраженного в данных.

Это самая трудоемкая часть этой задачи — аннотирование изображений для обучения и поддержки системы компьютерного зрения. Аннотации вызывают объекты на изображениях, которые система компьютерного зрения должна понимать и реагировать, когда, в конечном счете, система должна предпринять какие-либо действия в этой среде. Маркировка данных подготавливает их к использованию в машинном обучении.

Ввод этих данных в обучающий алгоритм позволяет научить систему зрения беспилотного автомобиля самостоятельно различать эти различия. По сути, скармливая ему размеченные изображения снова и снова, он может распознавать закономерности, связанные с метками, и самостоятельно определять метки будущих объектов.

Чтобы узнать больше об аннотации данных для этого варианта использования, прочитайте о том, как Luminar Technologies использует данные датчиков для увеличения дальности видимости для беспилотных транспортных средств.

В идеале автомобиль сейчас находится в точке, где он может определить, видит ли он пешехода, грузовик, знак или объект на дороге. Основываясь на обучении и корректировках, сделанных в течение всего жизненного цикла ИИ, система компьютерного зрения получает информацию, необходимую для принятия решений и реагирования на основе визуальных данных, которые она будет потреблять в режиме реального времени.

Машинное обучение для компьютерного зрения

Если бы мы жили в симулированном мире, одного тщательного программирования могло бы быть достаточно, чтобы подготовить автономный автомобиль к отправке в путь. Однако автомобили работают в постоянно меняющихся условиях, и нет двух одинаковых поездок из пункта А в пункт Б. Погодные условия меняются, появляются неожиданные препятствия, меняется трафик.

Введите машинное обучение и алгоритмы глубокого обучения. Точно так же, как эти алгоритмы могут брать аннотированные визуальные данные и использовать их для интерпретации и понимания окружающей среды, их можно использовать для изучения других шаблонов, позволяющих избегать препятствий, прогнозирующее моделирование и планирование пути.

Однако проблемы остаются в более тонких взаимодействиях. В то время как водитель-человек может установить зрительный контакт с пешеходом и участвовать в общении с помощью языка тела, автономная система еще не имеет такой возможности.

При нынешних темпах технического прогресса полностью автономные транспортные средства уже здесь, и их распространение не за горами. Важнейшее значение для этой разработки имеют команды, участвующие в сборе данных, подготовке данных и разработке алгоритмов машинного обучения, которые обучают эти системы видеть.

Обученные команды для аннотации изображений для компьютерного зрения

В CloudFactory мы предоставляем профессионально управляемые, обученные команды, которые очищают и маркируют данные с высокой точностью, используя практически любой инструмент. Мы работали над сотнями проектов в области компьютерного зрения, и наши команды работают с 10 ведущими мировыми компаниями по производству автономных транспортных средств.

Мы работаем с организациями из разных отраслей и обрабатываем миллионы задач в день для новаторов, использующих компьютерное зрение для создания всего: от беспилотных автомобилей и безкассовых касс до точного земледелия и алгоритмов обнаружения рака. Мы также стремимся создать значимую работу для талантливых людей в развивающихся странах.

Чтобы узнать, как CloudFactory может масштабировать высококачественные размеченные данные для компьютерного зрения, свяжитесь с нами.

Первоначально опубликовано на https://blog.cloudfactory.com.