Пошаговое визуальное руководство для понимания средней точности алгоритмов обнаружения и локализации объектов.

Что такое обнаружение и локализация объектов?

Обнаружение и локализация объектов — одна из самых быстро развивающихся областей машинного обучения. Такой алгоритм является расширением стандартного алгоритма классификации. Для заданного входного изображения алгоритм классификации будет выводить вероятностное распределение интересующих классов. нацелен не только на обнаружение заинтересованных классов на изображении, но и на их локализацию с помощью ограничительных рамок. Более того, он также может обрабатывать наличие нескольких классов в одном образе.

Рассмотрим рисунок ниже, на котором алгоритм классификации сравнивается с обнаружением и локализацией объектов.

Таким образом, он не только предсказывает метку класса, но также сообщает нам, где на картинке находится предсказанный класс. Следовательно, чтобы оценить производительность алгоритма обнаружения и локализации объектов, нам необходимо оценить, является ли предсказанный класс фактическим классом и насколько близка предсказанная ограничивающая рамка к истине.

Метрики оценки

Производительность алгоритма обнаружения и локализации объектов оценивается по показателю, называемому средней точностью (AP) (и средней средней точностью). Прежде чем мы углубимся в детали того, что такое AP, давайте проясним одну вещь о том, чем она НЕ является.

AP НЕ является средним значением точности для разных классов.

AP рассчитывается с помощью нескольких других показателей, таких как IoU, матрица путаницы (TP, FP, FN), точность и отзыв и т. д., как показано на рисунке ниже.

Чтобы понять AP, нам сначала нужно понять эти показатели.

1. Пересечение по союзу (IoU):

IoU количественно определяет близость двух ограничивающих прямоугольников (наземная правда и предсказание). Это значение находится в диапазоне от 0 до 1. Если две ограничивающие рамки полностью перекрываются, то прогноз является идеальным, и, следовательно, IoU равен 1. С другой стороны, если две ограничивающие рамки не перекрываются, IoU равен 0. IoU рассчитывается путем отношения между площадью пересечения и площадью соединения двух соединительных коробок, как показано ниже.

2. Истинный положительный результат, ложный положительный результат, ложный отрицательный результат:

Говорят, что предсказание правильное, если метка класса предсказанного ограничивающего прямоугольника и ограничивающего прямоугольника наземной истины совпадают, а IoU между ними больше порогового значения.

Основываясь на IoU, пороге и метках классов истинной истины и предсказанных ограничивающих рамок, мы вычисляем следующие три метрики.

  • Истинный положительный результат. Модель предсказала, что ограничивающая рамка существует в определенной позиции (положительный результат), и это было правильно (правда).
  • Ложное срабатывание. Модель предсказала, что ограничивающая рамка существует в определенном месте (положительно), но это было неверно (ложно).
  • Ложноотрицательный результат:модель не предсказывала ограничивающую рамку в определенной позиции (отрицательное значение) и была неверна (ложь), т. е. в этой позиции существовала ограничивающая рамка истинности.
  • Истинно отрицательный:модель не предсказывала ограничивающую рамку (отрицательный результат) и была правильной (верный результат). Это соответствует фону, области без ограничивающих рамок, и не используется для расчета окончательных показателей.

Следующий пример поможет прояснить TP, FP и FN.

3. Точность, отзыв

На основе TP, FP и FN для каждого помеченного класса мы рассчитываем два параметра: точность и полноту.

  • Точность: сообщает нам, насколько точна наша модель, т. е. из общего числа обнаруженных, скажем, кошек, сколько из них были настоящими кошками. Следовательно, это отношение между истинным положительным результатом и общим количеством предсказаний кошек (эквивалентно сумме истинных положительных и ложных положительных результатов), сделанных моделью, как показано ниже.
  • Отзыв: сообщает нам, насколько хорошо модель воспроизводит классы из изображений, т. е. сколько кошек из общего числа на входном изображении смогла обнаружить модель. Следовательно, это соотношение между истинно положительными и общим количеством наземных кошек (эквивалентно сумме истинно положительных и ложноотрицательных), сделанных моделью, как показано ниже.

На рисунке выше видно, что классификатор точен в том, что он предсказывает. Когда написано, что это кошка (собака), это правильно в 80% случаев. Однако, если на изображении есть кошка (собака), классификатор может обнаружить ее только в 50% (80%) случаев. Следовательно, модель с трудом припоминаеткошек.

4. Кривая точности-отзыва

В идеале мы хотим, чтобы и точность, и отзыв были высокими, т. е. все, что обнаруживается, является правильным, и модель может обнаруживать все вхождения класса. Значение точности и отзыва зависит от того, сколько истинных положительных результатов было обнаружено моделью. Назначение ограничивающей рамки TP, FP и FN зависит от следующих двух вещей.

  • Предсказанная метка по сравнению с меткой наземной истины
  • IoU между двумя коробками

Для задачи мультиклассовой классификации модель выводит условную вероятность того, что ограничивающая рамка принадлежит определенному классу. Чем больше вероятность для класса, тем больше шансов, что ограничивающая рамка содержит этот класс. Распределение вероятностей вместе с определяемым пользователем пороговым значением (от 0 до 1) используется для классификации ограничивающей рамки.

Чем меньше этот доверительный порог вероятности, тем выше количество обнаружений, сделанных моделью, и тем ниже вероятность того, что метки достоверности были пропущены, и, следовательно, выше отзыв (обычно, но не всегда). С другой стороны, чем выше доверительный порог, тем увереннее модель в своих прогнозах и, следовательно, более высокая точность(как правило, но не всегда). . Мы хотим, чтобы и точность, и полнота были как можно выше, поэтому существует компромисс между точностью и полнотой, основанный на значении доверительного порога.

Кривая точность-полнота отображает значение точности по сравнению с полнотой для различных значений порога достоверности.

С помощью кривой точности-отзыва мы можем визуально увидеть, какой доверительный порог лучше для нас (для нашего данного приложения). Чрезмерно упрощенный пример кривой PR можно увидеть ниже.

5. Средняя точность

Выбор значения достоверности для вашего приложения может быть трудным и субъективным. Средняя точность — это ключевой показатель эффективности, который пытается устранить зависимость от выбора одного порогового значения достоверности и определяется

Средняя точность — это площадь под кривой PR.

AP суммирует кривую PR с одним скалярным значением. Средняя точность является высокой, когда и точность, и полнота высоки, и низкой, когда любой из них низок в диапазоне значений доверительного порога. Диапазон для AP составляет от 0 до 1.

Следующие два подхода обычно используются для нахождения площади под кривой PR.

Подход 1 — Аппроксимируйте кривую PR прямоугольниками:

  • Для каждой пары точность-отзыв (j = 0,..., n-1) площадь под кривой PR можно найти, аппроксимируя кривую с помощью прямоугольников.
  • Ширину таких прямоугольников можно найти, взяв разность двух последовательных значений полноты (r(k), r(k-1)), а высоту можно найти, взяв максимальное значение точности для выбранных значений полноты. т. е. w = r (k) -r (k-1), h = max (p (k), p (k-1))
  • AP можно рассчитать по сумме площадей этих прямоугольников, как показано ниже.

Подход 2 — Интерполяция и среднее значение по 11 точкам

  • Рассчитываются значения точности для 11 значений отзыва от 0,0 до 1,0 с шагом 0,1.
  • Эти 11 точек можно увидеть как оранжевые образцы на рисунке справа.
  • AP можно рассчитать, взяв среднее значение этих 11 значений точности, как показано ниже.

6. Средняя средняя точность:

Значение AP может быть рассчитано для каждого класса. Средняя средняя точность рассчитывается путем получения среднего значения AP по всем рассматриваемым классам. то есть

Краткое содержание

Средняя средняя точность (mAP) количественно определяет эффективность алгоритма обнаружения и локализации объектов. Чтобы понять mAP, нам нужно понять, что такое IoU, True Positive, True Positive, False Positive, False Negative, Recall, Precision и кривая точности-отзыва. В этой статье мы рассмотрели каждую из этих концепций и то, как они помогают нам рассчитать mAP.

Если эта статья была вам полезна или вы хотите узнать больше о машинном обучении и науке о данных, подпишитесь на Aqeel Anwar или свяжитесь со мной в LinkedIn или Twitter. Вы также можете подписаться на мою рассылку.