Выявление проблем безопасности искусственного интеллекта

Фон

Разработка новых автоматизированных систем вождения (ADS) - в частности, уровня SAE 4 - является серьезной технологической задачей нашего времени. Сложность среды, в которой будут работать эти системы, поражает. Десятки миллиардов долларов и десятки тысяч человеко-лет были потрачены на решение этой проблемы со времени грандиозных вызовов DARPA в 2004–2005 годах.

Как отрасль, мы сделали впечатляющий рывок вперед.

Несколько месяцев назад Five продемонстрировала, что ее эталонный ADS может работать с высокой безопасностью даже на дорогах общего пользования в единственном мегаполисе Европы, совершив более 100 общедоступных тест-драйвов за один месяц по сложному 21-километровому маршруту в Южном Лондоне.

В США такие гиганты, как Waymo, Uber ATG и Cruise, автономно проезжают многие тысячи миль в день. Waymo даже предлагает общественные поездки без безопасных водителей в небольшом районе Феникса, Азия.

В более широком смысле, современные легковые автомобили ощутили это влияние: появление усовершенствованных систем помощи водителю (ADAS) обеспечивает уровень автоматизированной помощи при вождении на шоссе, парковке и перемещении в пробках.

Но хотя мы добиваемся больших успехов, отрасль по-прежнему сдерживается одной проблемой.

По мере того, как эти системы начали переходить от экспериментальной концепции в Bay Area к функционально и номинально безопасной и надежной ADS, стало совершенно ясно, что до широкого внедрения технологии предстоит пройти долгий путь. Основная переменная демонстрирует безопасность систем искусственного интеллекта. Размер, сложность и стоимость этой остающейся проблемы были основным фактором в ажиотажах вокруг беспилотного вождения, сошедших на нет за последний год. Пока проблема не будет решена, широкомасштабная коммерциализация технологии ADS будет по-прежнему сдерживаться.

Разрушение мифов

Раньше количество миль, пройденных за одно высвобождение, было мерой безопасности для ADS. Более того, отсоединения и «неожиданные события» были основным механизмом обнаружения и устранения проблем со стеком.

Первой разрушенной концепцией стал миф о разъединении как основной показатель прогресса, используемый в отрасли. Это оказалось слишком упрощенным и неэффективным способом стимулирования усилий по обеспечению гарантий, стоящих за этими типами систем.

Теперь всем ясно, что простая оценка прогресса как улучшений в милях между отключениями скрывает множество неудач, которые могут не доходить до уровня разъединения, в то же время обеспечивая чрезвычайно медленный цикл разработки. Это не говоря уже о том, что для получения статистической уверенности необходимо физически проехать сотни миллионов миль. Это чертовски большая работа для водителей, обеспечивающих безопасность, и она нецелесообразна на многих уровнях в качестве основного метода поиска ошибок.

Когда отключение на милю, пройденную человеком, отодвигается на задний план в качестве меры безопасности системы, появляется эффективное и мощное использование моделирования как ключа к разблокировке автономии. В смоделированном виртуальном мире ADS может получить «поездку своей жизни»: за синтетическую милю вложить больше острых ощущений и разливов, чем вы бы увидели в тысячах миль реального мира.

Ключ к успеху может быть в моделировании, но в Five мы пришли к пониманию того, что раскрытие ценности моделирования сопряжено с определенным набором проблем. Прежде чем мы углубимся в них, давайте кратко рассмотрим, как строится ADS:

Автоматическое вождение 101

Почти все практические ADS состоят из трех компонентов высокого уровня, которые можно резюмировать как Sense, Plan & Act.

Sense разрабатывает внутреннюю модель внешнего мира, включая расположение ADS в этом мире.

План разрабатывает высокоуровневый план траектории для ADS, основанный на целях, интерпретации этой модели в мире и правилах.

Act превращает этот план в плавное и удобное рулевое управление, ускорение, торможение и сигнализацию.

Смысл - это компонент, в котором обычно живет ИИ, часто в форме глубоких сверточных нейронных сетей (CNN), интерпретирующих выходные данные датчиков LiDAR, радаров и камер. Компонент Plan находится в традиционной области робототехники, но с той дополнительной особенностью, что этот компонент требуется для планирования в условиях неопределенности, поскольку компонент Sense никогда не будет правильно интерпретировать мир.

Дьявол в деталях

Когда дело доходит до моделирования, у нас есть выбор. Будем ли мы запускать симуляцию с высокой точностью воспроизведения с полной реалистичностью фотографий и материалов или вместо нее следует запускать симуляцию с низкой точностью? Оба имеют важное значение для измерения безопасности.

Вариант 1. Симуляция с высокой точностью

Если мы выберем моделирование с высокой точностью, нам нужно будет оцифровать и визуализировать обширные области мира в виртуальном пространстве не только для фотореализма, но и для материального реализма. Затем, если мы хотим представить весь ADS с входными данными, которые он получит при тестировании в реальном мире, нам потребуются точные модели всех датчиков в транспортном средстве для генерации этих входных данных. Излишне говорить, что это гигантская вычислительная (и финансовая) задача, и ее действительно сложно выполнить быстрее, чем в реальном времени. Но представьте, что это было сделано, это по-прежнему оставляет разработчика перед проблемой адаптации предметной области.

CNN оказываются чрезвычайно чувствительными к статистике своей входной области. Создание синтетических изображений, которые стимулируют те же результаты, что и изображения в реальном мире, в настоящее время остается общей проблемой глубокого обучения. Несмотря на появление многообещающих подходов, проблема все еще по сути не решена, а это означает, что разработчик остается со значительным остаточным риском, который потенциально делает недействительным их тестирование.

Вариант 2. Моделирование низкой точности

Альтернатива использования моделирования с низкой точностью требует, чтобы мы сгенерировали только функциональное представление интерфейса между компонентами Sense и Plan; не нужно ничего рендерить, не нужно моделировать какой-либо из датчиков. Симуляция с низкой точностью, которую часто называют «безголовой», устраняет вычислительно затратную часть симуляции и, поскольку Sense вообще не тестируется, дорогостоящие части запуска ADS.

Конечно, у этой парадигмы есть две проблемы:

Во-первых, поскольку тестирование компонента Sense вообще не выполняется в моделировании, отдельное тестирование в реальном мире и управление компонентом Sense по-прежнему необходимы в больших количествах, что означает высокие затраты, длительные сроки и низкую воспроизводимость.
Во-вторых, представляя компонент Plan с идеальным пространственным представлением сценария в моделировании (иногда называемом наземной симуляцией), мы на самом деле не тестируем этот компонент, как это было бы в реальном мире, который всегда содержит некоторые ошибки восприятия. Все системы восприятия несовершенны, и планировщик должен быть надежным при наличии таких ошибок. Опять же, у инженера по проекту аудита в голове срабатывает сирена: остаточный риск, остаточный риск, остаточный риск!

Мы называем это проблемой верности моделирования.

Все хуже и хуже

Как будто этого было недостаточно, когда дело доходит до реализма симуляции, возникает вторая проблема: заметность. Но прежде чем говорить о значимости, давайте просто напомним себе, что мы подразумеваем под областью рабочего проектирования (ODD).

Область рабочего проектирования (ODD)

Одной из ключевых концепций автономного вождения является концепция ODD, которая определяется как «рабочие условия, при которых данная ADS специально предназначена для работы». ODD представляет собой высокоуровневую спецификацию, в которой ADS предназначен для безопасной работы. Сюда входят, например, типы условий окружающей среды, типы движения и характеристики проезжей части. Нам нравится визуализировать ODD как устанавливающую границу, которая ограничивает мир возможностей, где каждый возможный сценарий может быть точкой внутри границы ODD, и мы можем измерить охват и производительность, например:

Говоря упрощенно, цель состоит в том, чтобы продемонстрировать безопасность всех точек, представляющих ODD.

Когда все наши испытания проводились в реальном мире, мы могли более или менее гарантировать, что оно актуально, поскольку мы двигались в пределах нашего целевого оптического привода. Поскольку все разработчики ADS стремятся к производительности, превышающей человеческие, скажем, 1,5x10⁸ миль на серьезную травму, и мы наверняка будем далеки от того, чтобы покрыть такое количество миль на любой конкретной версии программного обеспечения, если бы нам пришлось отключиться, это было бы почти конечно провал нашей системы. Это означало, что дорожная ситуация, которая вынудила нас разойтись, почти наверняка повторится снова. Это заметно.

Теперь, если мы перенесем большую часть нашего тестирования в смоделированный мир, мы сможем многократно воспроизвести эту системную ошибку как сценарий - созданный вручную или извлеченный из реальной встречи - и исправить нашу систему.

Это здорово, но мы можем пойти еще дальше. В моделировании мы можем создать практически любой сценарий движения, с которым мы можем столкнуться в реальном мире. Это очень мощно.

Однако проблема возникает, когда мы задаем себе два вопроса:

Вероятен ли этот сценарий, который я только что создал, в реальном мире (и насколько вероятно)?
Если бы это было так, смог бы даже водитель-человек успешно его преодолеть? Могли ли мои ADS, лучше чем человеческие, безопасно об этом договориться?

Проблема, которую мы только что осветили, по существу заключается в следующем: единственный сценарий в моделировании дает так называемую оценку безопасности на микроуровне, тогда как то, что мы ищем, - это оценка безопасности на макроуровне. Понимание разницы и умение перемещаться между ними - довольно важная часть знаний. А если мы этого не знаем, мы называем это проблемой значимости моделирования.

Но это всего лишь остаточный риск

Конечно, следует отметить, что одна линза, сквозь которую можно смотреть на тестирование на основе моделирования, - это как механизм для уменьшения как можно большего риска перед выездом на дорогу. Это действительно так. Но уровень вождения по дорогам, требуемый для этих наивных подходов к тестированию, основанных на моделировании, слишком велик: ведет не только к сохраняющимся рискам дальнейших несчастных случаев со смертельным исходом с участием автопарков, проводящих испытания, но и к поддержанию длительного цикла разработки, который вполне может положить начало самостоятельной работе. вождение за пределами бюджета даже самых крупных игроков в этой сфере.

Решение проблемы точности моделирования и проблемы заметности моделирования являются наивысшим приоритетом для нашей отрасли. Вот почему мы в Five упорно работали над двумя идеями, которые представляют собой шаг вперед в ускорении и облегчении безопасного развития автономного вождения.

Две мощные идеи: общий план

В Five мы разработали две мощные идеи, которые имеют большое значение для развития конвейера разработки и обеспечения гарантий на основе моделирования, который действительно соответствует поставленной цели и который решает самые большие нерешенные проблемы в области обеспечения уверенности на сегодняшний день.

PRISM ™ ️
В ответ на проблему достоверности моделирования (описанную выше) мы разработали рабочий процесс проверки и валидации восприятия, который точно моделирует систему восприятия, бородавки и все остальное. При использовании он предоставляет суррогатную статистическую двойную модель, результаты которой правдоподобны и статистически неотличимы от реальных результатов. Это означает, что отрасль не должна терпеть остаточный риск, связанный с недостатками существующих вариантов моделирования с высокой или низкой точностью.
Модели значимости
В ответ на проблему симуляции заметности мы применяем аналогичный подход. Наш рабочий процесс проверки и валидации позволяет нам охарактеризовать сценарии, которые мы видели в реальном мире, и построить модели реалистичного поведения агентов. Затем этот рабочий процесс гарантирует, что соответствующие сценарии и крайние случаи для тестирования напрямую связаны с ODD, в котором мы намереваемся безопасно работать.

С помощью обеих этих моделей мы преследуем двойную цель нашего реального вождения: мы не только используем его для тестирования нашей ADS, но мы также напрямую проверяем модели восприятия и значимости, которые мы запускаем в симуляции.

Следите за обновлениями, чтобы узнать больше

Мы активно развиваем эти идеи как часть мощной платформы сквозной разработки и обеспечения гарантий, которая проведет вас от формализации ODD к обоснованию безопасности, которое вам необходимо разработать для обеспечения автоматизированной системы вождения.

Если вы хотите узнать больше, вы можете:

Свяжитесь с нами напрямую по адресу [email protected].
Следите за нашей средней страницей для будущих блогов, подробно описывающих нашу систему.