Мы, люди, можем видеть, как Вин Дизель смотрит в сторону, когда едет на высокой скорости!!! Могут ли машины делать?

Отвлеченное вождение является примерно 20% причиной дорожно-транспортных происшествий, и, учитывая более широкое использование мобильных телефонов в транспортных средствах, это стало серьезной проблемой. Ведущие автопроизводители и поставщики уже много лет используют «обнаружение отвлечения внимания водителя» в качестве одной из своих главных инновационных программ. Но где продукты? Очевидно, что заставить машину обнаружить, что Вин Дизель отвлекся и насторожиться, на этом основании — нетривиальная задача.

Системы, основанные на правилах, использовались в течение многих лет с участием больших команд, и точность обнаружения отвлекающих факторов в режиме реального времени является сложной задачей. Глубокое обучение с инфраструктурой GPU меняет все это.

Эта заметка должна показать невероятную величину сдвига, который происходит в решении подобных проблем благодаря глубокому обучению. Как человек (в отличие от инновационной группы инженеров автомобильного OEM), который является бизнес-лидером (в отличие от технического специалиста), используя интернет-ресурсы (~ 20 000 изображений водителей, управляющих автомобилем в разных положениях), может создать систему обучения, которая может обнаруживать отвлеченных водителей. с точностью ~90%.

На рисунках выше (полученных из Интернета) показаны некоторые результаты. Лиам Хемсворт находится в положении, когда он не ведет машину, и модель глубокого обучения распознает, что он, должно быть, разговаривает с пассажиром, учитывая его положение. Джейсон Стэтхэм разговаривает по телефону, что-то делает головой, и его положение левой руки также предполагает, что он что-то пьет. Понятно, что обе руки не на руле. Дуэйн Джонсон разговаривает по радио, но машина определила это как употребление алкоголя, что неверно, но отмечает отвлеченный случай.

Самое удивительное в построении таких моделей обучения сегодня заключается в том, что вам не нужно делать это с нуля. Точно так же, как мы, люди, нанимаем эксперта и учимся у него, мне пришлось найти в Интернете предварительно обученную модель, которая была обучена на ~ 1,3 млн изображений (VGG16), чтобы видеть изображения реального мира и основываться на ее обучении. Эта модель уже умела распознавать лица например и различные объекты. Мне пришлось заставить его отменить часть его обучения (удалить несколько слоев) и заставить его изучить задачу «отвлеченного водителя», например, говорить, пить, тянуться назад, отправлять текстовые сообщения и т. д. (путем добавления новых слоев). Примерно 20-уровневая модель глубокого обучения, обученная на графических процессорах. Вот и все… теперь он может с хорошей точностью обнаруживать отвлеченных водителей.

Любители кино, возможно, помнят «Over The Top», где Сильвестр Сталлоне установил грузовой блок прямо внутри своего грузовика, чтобы он мог тренировать свою борцовскую руку. Машина в современную эпоху расшифровывает это как рассеянный водитель, говорящий и отправляющий текстовые сообщения правой рукой. Это означает, что есть дополнительные возможности для более глубокой интерпретации, поскольку модель идентифицирует это как отвлечение внимания, но классифицирует его неправильно, поскольку шкивы не были частью обучения. В отличие от Джейсона Стэтхэма и Райана Гослинга, оба кажутся энергичными, но есть большая разница в результатах. Вот где появляется возможность продвигаться к более высокой точности. Положение руки Джейсона, кажется, предполагает, что он тянется за напитком из подстаканника, в то время как Райан с выдающимся ремнем безопасности и позицией выступает за безопасное вождение. О да, я не видел ремней безопасности на более ранних фотографиях… в этом вся прелесть систем глубокого обучения. Он распознает такие нюансы и учится так же, как и мы, люди. Никаких правил не было встроено, чтобы распознать это.

Как это можно улучшить в дополнение к тренировкам с дополнительными занятиями, такими как блок??… есть несколько способов выскакивать

  1. Добавьте камеру, направленную наружу, показывающую контекст дороги, и модель глубокого обучения, которая его изучает.
  2. Добавьте данные акселерометра (или GPS и т. д.) с мобильного телефона, чтобы получить представление о скорости/движении автомобиля.

Эти «подсказки» могут быть смоделированы, а их обучение объединено в более раннюю модель обучения, подобно объединению разумов. Приведенное ниже изображение говорит само за себя о том, что будет делать модель обучения на основе изображения с передней камеры, объединенного с изображением отвлеченного водителя.

Когда машины видят и учатся так же, как мы, масштабы изменений в решении проблем могут быть ошеломляющими. Значительное сокращение входных данных — необходимых людей/ресурсов и многократное увеличение точности вывода.