Новый алгоритм роботизированного зрения

Круиз на моем Nissan 350Z с неоновым эффектом земли, грохотающим под саундтрек, или крен на поворотах со скоростью более 170 миль в час на моем Aston Martin DB9 с двигателем V12 — вот первые в коротком списке вещей, которые успокаивают мои ежедневные поездки на работу в условиях плотного трафика. реальный мир. За относительно короткий промежуток времени здоровенная электронно-лучевая трубка в нашей гостиной превратилась из замочной скважины в тусклых комедиях положений и реалити-шоу в богатый интерфейс между чувствами моей семьи и умами разработчиков видеоигр. Графика, отображаемая нашими последними праздничными приобретениями, визуально ошеломляет. Индустрия перешла от стадии «почти реальной» к «гиперреальной» — миру, в котором самые невероятные ракурсы камеры стали обычным явлением, освещение всегда идеальное, а скорость захвата кадров в самый раз. В этой экспериментальной установке скрыто много научных данных, и исследователи разрабатывают инструменты для их обнаружения и использования.

Одна из таких научных загадок заключается в том, как бинокулярное зрение, которое мы используем для навигации в нашей трехмерной (3-D) среде, без труда извлекает объемную информацию из двухмерного (2-D) рисунка, испускаемого светящимися люминофорами, нанесенными на кусок. стекла. Я вижу два одинаковых сплющенных изображения, когда смотрю на экран обоими глазами, но при этом могу с легкостью объезжать препятствия на большой скорости. Даже этот простой тест показывает, что трехмерная обработка глубины — это больше, чем оптика; он должен включать некоторую высокоуровневую обработку изображений.

Профессор Эндрю Й. Нг и его исследовательская группа в Стэнфордском университете задают аналогичные вопросы о роботизированном зрении. Автономные транспортные средства, оснащенные фалангой камер, датчиков, лазеров и радаров, пробираются через загроможденную среду; однако профессор Нг исследует легкие гибкие решения, сформированные вокруг одиночной цветной видеокамеры. Похоже, что ключом к извлечению глубины из одного двухмерного монокулярного изображения являются те же методы, которые художники используют для придания глубины своим произведениям, а именно текстура, перспектива и фокус. Мастера эпохи Возрождения умело детализировали швы и складки на одежде близких людей, в то же время целенаправленно уменьшая масштаб, фокус и детализацию объектов на дальнем фоне, чтобы создать реалистичные виды на плоском холсте. Если не считать разработки мыслительной машины, которая распознает объекты и их общий размер в перспективе, метод Нг извлекает общие черты из цифрового изображения и преобразует их в информацию о глубине.

Алгоритм основан на популярной двумерной версии наивного байесовского классификатора (NBC), известного как марковское случайное поле (MRF), целью которого является классификация комбинаций атрибутов пикселей изображения в диапазоне значений глубины. Байесовский анализ позволяет статистически связать наблюдаемый результат с набором входных наблюдаемых величин. Например, атмосферная видимость может быть связана с входными наблюдаемыми значениями температуры, влажности, времени суток и атмосферного давления. Даже если точное детерминистическое уравнение, связывающее входные данные с наблюдаемым результатом, может быть неизвестно, NBC может генерировать вероятность конкретного результата при известных входных значениях. Статистические данные генерируются путем «обучения» NBC набором пар входных/выходных данных и проверяются путем сравнения выходных данных с тестовым набором дополнительных пар входных/выходных данных. Если истинной взаимосвязи нет, NBC очень плохо работает на тестовом наборе; однако качественные результаты могут быть получены, если взаимосвязь существует, даже если она не известна явно.

Группа Нг собрала пары изображение/глубина, используя небольшую цветную цифровую камеру с разрешением 1704 x 2272 пикселей и одномерный лазерный дальномер, установленный на трансляционном столике, чтобы определить истинную глубину изображения при разрешении 86 x 107. MRF был обучен. с использованием 75 процентов пар и подтверждено с использованием оставшихся 25 процентов. Цифровые изображения были сегментированы на небольшие пиксельные ячейки и сопоставлены с шаблонами фильтров, разработанными для классификации вариаций текстуры, градиентов текстуры, дымки и ориентации краев, в результате чего для каждой ячейки было получено 34 уникальных локальных входных наблюдаемых объекта. Ячейки также сравниваются с их ближайшими соседями в различных разрешениях, чтобы извлечь глобальную информацию о 19 дополнительных функциях, что приводит к набору из 646 входных наблюдаемых для каждой ячейки. Обученный MRF использовался для прогнозирования глубины на тестовых изображениях как в помещении, так и на открытом воздухе, и было определено, что его средняя ошибка составляет 35 процентов, что означает, что изображение препятствия на расстоянии 10 метров будет отображаться для алгоритма на расстоянии от 6 до 14 метров. При частоте кадров 10 Гц у автономного робота будет достаточно времени, чтобы избежать препятствия даже при такой неопределенности.

Система с одной камерой значительно сократила количество оборудования, необходимого для предоставления информации о глубине, а также может определять расстояния в пять-десять раз дальше, чем динамический диапазон многих триангулирующих систем с двумя камерами. Алгоритм использовался небольшой радиоуправляемой машиной для автономной навигации по захламленной лесистой местности в течение нескольких минут, прежде чем разбиться. Дальнейшие усовершенствования могут однажды позволить разработать системы автопилота для автомобилей. Но это резко уменьшило бы мое удовольствие от видеоигр.

Первоначально этот материал был опубликован как редакционная статья в журнале Scientific Computing23:4, март 2006 г., стр. 14.

Уильям Л. Уивер — адъюнкт-профессор кафедры интегрированных наук, бизнеса и технологий Университета Ла Саль в Филадельфии, штат Пенсильвания, США. Он имеет B.S. Получил двойную степень по химии и физике и получил докторскую степень. в аналитической химии с опытом в сверхбыстрой лазерной спектроскопии. Он преподает, пишет и рассказывает о применении системного мышления для разработки новых продуктов и инноваций.