Введение в распознавание объектов

Когда я возвращаюсь домой после насыщенного дня работы в Foundation AI, я сажусь на диван, беру пульт, направляю его на телевизор и нажимаю кнопку питания, чтобы включить его. Это возможно только потому, что (и я не хочу кричать в свой собственный рог) я отлично разбираюсь в распознавании объектов. Я могу отличить свой диван от стены и определить, что это диван. Я могу найти нужный пульт среди кучи других пультов (да, у меня их слишком много). Я знаю, где мой телевизор, и я знаю, какая кнопка на пульте дистанционного управления является кнопкой питания. Это умение, которому мы все научились в детстве и по большей части воспринимаем как должное.

Для компьютера может быть исключительно полезно выполнять такую работу вместо человека. Если я установлю камеру слежения в своем доме, я не хочу смотреть кадры 24 часа в сутки, чтобы увидеть, не вломится ли кто-нибудь. Если я хочу найти фотографию милого щенка, чтобы поделиться с генеральным директором, я не хочу просматривать каждую фотографию в Интернете, чтобы найти одну, на которой щенок достаточно симпатичный для его внимания.

Распознавание объектов — одна из самых активных областей исследований в области ИИ. Хотя в целом он не соответствует способности человека распознавать объекты, ИИ приближается к человеческому уровню, когда имеет дело с узкими случаями (например, определяет, есть ли на картинке собака).

Распознавание объектов используется для идентификации отдельных объектов на изображениях и видео. В значительной степени методы, используемые для изображений и видео, одинаковы. Видео по своей сути представляет собой набор неподвижных кадров. Видео может иметь некоторую дополнительную сложность, если вам нужно отслеживать объект от кадра к кадру. Изображения и видео являются неструктурированными данными. Это означает, что данные изображения не разбиты на его функции.

Когда вы видите изображение, вы должны определить, изображена ли на нем собака и является ли эта собака большой или маленькой, коричневой или черной. Поскольку изображения и видео могут содержать большое количество вариаций (они могут содержать любой объект на Земле), алгоритмы распознавания объектов требуют очень больших объемов данных для эффективного обучения. Алгоритмы распознавания объектов обучаются с помощью обучения с учителем. Это означает, что им скармливают большое количество фотографий, на которых указано, что они содержат. Затем алгоритм разрабатывает правила идентификации этих объектов на новых изображениях.

Существуют предварительно обученные алгоритмы распознавания объектов, такие как YOLO, которые уже обучены обнаруживать ограниченное количество объектов. Однако, если вам нужно обнаружить объекты, не включенные в предварительно обученную модель, вам нужно повысить точность или вам нужно определить, в каком направлении движется объект на видео после того, как он был идентифицирован, вам нужно либо переобучить готовый алгоритм с новыми данными, разработать новый алгоритм или собрать ансамбль алгоритмов для выполнения различных задач.

Сегодня распознавание объектов используется по-разному. Он может определить, что находится на изображении. Это называется тегированием и используется поиском изображений Google. Он может определить, содержит ли изображение собаку или кошку, идентифицировать возрастной контент и группировать фотографии со схожими характеристиками. Распознавание объектов также может находить изображения, похожие на другие изображения. Обратный поиск изображений Google является примером этого. В этом случае алгоритм вообще не нужно обучать, потому что ему не нужно определять, что находится на изображении. Ему просто нужно идентифицировать другие изображения с похожими функциями.

Распознавание объектов также может находить различия между изображениями. Это чаще всего используется в медицинской визуализации. Система распознавания объектов может сканировать изображения тела и выявлять аномалии. В этом подходе алгоритм обучается на наборе изображений, например, рентгеновских снимков, которые уже помечены как здоровые или нездоровые. Новые изображения могут быть оценены обученным алгоритмом, чтобы определить, подвержен ли пациент риску развития заболевания. Команда Foundation AI имеет большой опыт разработки решений с такой функциональностью.

Первоначально опубликовано на https://www.foundationai.com 10 апреля 2019 г.

Введение в распознавание объектов

Вопросы по теме