В предыдущей установке нашей серии мы рассмотрели, что такое понимание изображений и видео, как оно работает и почему оно так сильно улучшилось за последние годы. Однако технологии сами по себе редко улучшают социальные и экономические результаты. Скорее, это полезное применение технологий и их способность улучшать наши текущие процессы, которые имеют наибольшее значение.

Современные методы искусственного интеллекта и машинного обучения работают, автоматически определяя отношения между элементами в наборе данных. Хотя мы традиционно думаем о наборах данных с точки зрения электронных таблиц Excel, машинное обучение и глубокое обучение позволили нам принять более широкое определение. Мы можем описать изображение, используя местоположение и цвет каждого пикселя, и построить набор данных, прикрепив метки к каждому изображению. На основе этих взаимосвязей модель ИИ узнает, что определенные шаблоны пикселей соответствуют кошкам, а другие — собакам.

В этой статье мы расскажем о некоторых интересных приложениях компьютерного зрения и дадим представление о современной производительности.

Классификация медицинских изображений

Хотя сортировать изображения кошек и собак по разным корзинам может быть интересно, наиболее эффективные приложения классификации изображений лежат на периферии — в обучении машин выполнению задач классификации, которые в настоящее время требуют специалистов-людей.

Возьмем в качестве примера офтальмологию, в частности процесс диагностики диабетической ретинопатии (ДР). Подсчитано, что до 40% американцев с диагнозом диабет будут страдать ДР, а до 15% будут страдать макулярным отеком, который может привести к ухудшению зрения. Как и многие заболевания, ДР лучше всего лечится при раннем обнаружении. Несмотря на это, многие пациенты с диабетом ежегодно не обращаются к окулисту.

Это проблема, хорошо подходящая для компьютерного зрения, поскольку процесс скрининга DR включает в себя изучение изображений сетчатки на наличие аномалий. Группа офтальмологов может создать аннотированный набор данных сканирования глаз и пометить каждое изображение как положительное или отрицательное для ДР. Затем они используются моделью ИИ, чтобы научиться обнаруживать болезнь при будущих сканированиях.

Ранее в этом году FDA предоставило регулирующее одобрение устройству, способному проводить скрининг на ранние симптомы без участия офтальмолога. Устройство сможет обнаруживать легкую ДР и направлять пациента к окулисту для дальнейшего лечения. В клинических испытаниях компания сообщила о точности более 85%, что выше, чем у нынешних врачей общей практики. Уже есть инициативы по внедрению этой технологии в камеры смартфонов, чтобы сделать диагностику DR еще проще.

Семантическая сегментация для беспилотных автомобилей

Иногда просто способность классифицировать изображение не так уж ценна. Возможно, на картинке есть несколько объектов, и вы хотели бы понять, где они находятся по отношению друг к другу, или, может быть, вы анализируете видео и хотели бы понять, как объекты перемещаются от одного кадра к другому. Более подробные задачи, подобные этим, требуют, чтобы компьютер распознавал и отличал объекты на изображении друг от друга и присваивал им соответствующие метки. Это называется семантической сегментацией.

Наборы данных, используемые для обучения компьютеров тому, как выполнять семантическую сегментацию, помечаются либо на уровне пикселей, чтобы зафиксировать их форму, либо путем рисования ограничивающих рамок вокруг объектов, чтобы указать на их присутствие. Точность наиболее широко используемого общедоступного набора данных в этой области — Common Objects in Context (COCO) — удвоилась с 2015 года.

Одно из самых захватывающих применений этой технологии — в беспилотных автомобилях. Водители-люди имеют дело с огромным количеством приближающихся объектов во время вождения и должны знать, как по-разному реагировать на каждый из них. Автономные транспортные средства должны будут отличать грузовики от малолитражных автомобилей и взрослых пешеходов от детей. Такие задачи сегментации выполняются с помощью наборов данных, таких как Berkeley Deep Drive. Помимо меток сегментации, эти наборы данных содержат данные GPS о местонахождении автомобиля и инерциальные измерительные блоки (IMU) с информацией о движении.

Автопроизводители, технологические компании и университеты стремятся первыми выйти на рынок. Audi A8 2018 года станет первым в мире автомобилем с автономией Уровень 3, что означает, что в определенных условиях водители смогут снять руки с руля и по-настоящему расслабиться. Другие системы, такие как автопилот Tesla, требуют, чтобы водитель всегда держал руки на руле и оставался внимательным.

Распознавание лиц и проверка личности

Одно из применений искусственного интеллекта, которое чаще всего можно увидеть в научно-фантастических фильмах, — это возможность подтвердить чью-то личность с помощью распознавания лиц. Горожане будущего подходят к блестящим раздвижным дверям, которые открываются и приветствуют их по имени. Возможно, мы не слишком далеки от этой реальности, по крайней мере, в определенных ситуациях.

Чтобы обучить эту модель, исследователи передают ИИ множество изображений одного и того же человека, чтобы алгоритм научился определять сходство между лицами под разными углами и при разном освещении. В прошлогоднем тесте поставщика распознавания лиц, который служит эталоном для алгоритмов распознавания лиц, команда-победитель достигла показателя точности 95%. Этот результат важен, поскольку набор данных содержал 1 миллион ранее невиданных изображений, поэтому исследователи не смогли бы оптимизировать свой алгоритм для этого конкретного набора данных.

Технология распознавания лиц уже широко внедряется в таких местах, как аэропорты, чтобы помочь сотрудникам службы безопасности проводить проверку личности. В Китае распознавание лиц используется в 80% аэропортов страны, обслуживающих более 30 млн пассажиров в год. Видение состоит в том, что однажды проверки безопасности могут быть полностью автоматическими, создавая более рациональный опыт и позволяя сотрудникам службы безопасности сосредоточиться на делах с высоким риском.

Хотя в распознавании лиц были достигнуты впечатляющие успехи, мы должны помнить об его ограничениях. Для специалистов по машинному обучению крайне важно создавать надежные и подходящие наборы данных, которые отражают проблемы, которые они пытаются решить. Это особенно важно при распознавании лиц, поскольку недостаточно сбалансированные или неполные наборы данных могут привести к систематической ошибке. Использование наборов данных и алгоритмов, специфичных для вашей задачи, приведет к превосходным результатам.

Ключевые выводы

Хотя в этой статье мы коснулись только трех конкретных вариантов использования, области применения компьютерного зрения практически безграничны. Что важно для тех, кто хочет внедрить ИИ в будущем, так это прочная основа для создания соответствующих наборов данных и использования моделей, подходящих для их конкретной проблемы.

В следующей и последней статье нашей серии мы предоставим структуру того, как думать о создании этих наборов данных и внедрении решений компьютерного зрения.

Быть в курсе!