Наш клиент хотел запечатлеть дикую природу на изображениях, снятых камерой с шоссе. Мы начали с создания большой сети между различными решениями для обнаружения объектов. Сроки составляли четыре недели, поэтому нам нужно было быстро отреагировать. Клиент уже был запущен и работал с современной архитектурой данных, поддерживаемой магистралью Google Cloud Platform (GCP), но не касался машинного обучения. Мы сразу же знали, что GCP AutoML будет претендентом - с минимальной глубиной организационной науки о данных, отсутствие кода в AutoML явно давало преимущества. После изучения различных фреймворков возник вопрос, сможет ли решение из семейства YOLO (You Only Look Once) превзойти AutoML. Эта история представляет собой высокоуровневое сравнение этих двух решений (для каждой платформы есть множество руководств).

YOLOv5

Основываясь на предварительном тестировании с YOLOv3 (ограниченным метками в наборе данных COCO), мы знали, что более гибкая версия будет эффективной для классификации дикой природы на изображениях шоссе. С возможностью обучения модели с использованием пользовательских изображений, YOLOv5 был явным претендентом на наш вариант использования дикой природы. Следует отметить размер футболки модели - это количество параметров в модели (рассчитывается путем суммирования количества элементов в каждом слое). Мы можем протестировать версию Small, а затем обучить более крупную модель, когда мы будем уверены в результатах и ​​захотим добиться большей точности и отзывчивости.

Некоторые из плюсов и минусов YOLOv5, относящиеся к нашему варианту использования, включают следующее.

Плюсы

  • v5 не требует кода - все обучение и обнаружение можно выполнять из командной строки; репо поддерживается Ultralytics, поэтому теоретически зависимости стабильны
  • Четыре размера модели для быстрого отказа: Small, Medium, Large и XL.
  • Возможность настройки гиперпараметров для настройки модели
  • Дополнительные изображения (из Google OID) легко использовать, а файлы этикеток можно преобразовать в формат YOLO с помощью скрипта, размещенного здесь.

Минусы

  • Нет немедленной интеграции с облачными платформами
  • Производительность модели страдает от повышенных классов (то есть видов дикой природы).
  • Требуется PyTorch в Python 3.8, что не должно быть проблемой, если ваша система или контейнер не имеют ограничений среды.

Ниже приведены некоторые результаты обнаружения модели YOLOv5:

YOLO отлично справлялся с обобщением по сайтам камер, используя около 200 изображений для каждого класса дикой природы.

GCP AutoML

Премьерный инструмент обнаружения объектов изображений в Google Cloud позволяет быстро обучать модели, используя всего ~ 100 изображений на класс. Некоторые из плюсов и минусов AutoML, относящиеся к нашему варианту использования, включают следующее.

Плюсы

  • Возможность легко маркировать ваши тренировочные изображения с помощью Vertex AI.
  • Интеграция с облачным хранилищем и другими инструментами GCP для автоматизации и развертывания.
  • Мы не заметили снижения производительности модели по мере добавления классов.

Минусы

  • Невозможность «настроить модель», кроме включения ранней остановки
  • Потенциально более высокий уровень ложных срабатываний
  • Затраты на большое обучение или большие оценки

Модель AutoML довольно хорошо обобщалась на другие сайты с камерами, но была определенно более чувствительной, показывая большое количество ложных срабатываний (т. Е. Роговидные сорняки, классифицируемые как «олени»).

Характеристики модели YOLOv5

Модель YOLO была обучена локально (без графического процессора) со следующим распределением для наборов обучения / проверки / тестирования:

  • На этикетку примерно 200/50/50

Ниже приведен снимок экрана с результатами обучения.

При указании веса модели «Большой» для 15 эпох и 5 классов (олень, собака, человек, кошка, лошадь) результаты тренировки показали:

  • 78% точность
  • 72% отзыв

При развертывании против изображений наземной достоверности запоминаемость и точность были немного выше (оба ближе к 90%). Следует отметить, что YOLOv5 плохо работает с очень темными изображениями - не очень хорошо для нашего случая использования, поскольку большинство пересечений дикой природы происходит ночью!

Производительность модели AutoML

Модель AutoML была обучена в GCP со следующим распределением для наборов обучения / проверки / тестирования:

  • На этикетку примерно 170/20/20

Для обучения было четыре класса (человек, олень, мышь, мелкое млекопитающее) - это были разные классы, чем те, которые использовались для обучения YOLO, из-за нюансов сбора данных и ограничений по времени. Тренировочные выступления показали:

  • 94% точность
  • 90% отзыв

Обратите внимание, что при развертывании на наземных изображениях правды отзыв был точным, но, как упоминалось ранее, было довольно много ложных срабатываний, что означает, что точность на практике ниже. AutoML не упускает из виду диких животных, но позволяет отнести неодушевленные предметы к потенциально дикой природе.

Общие проблемы

Классам меньшинств (змеи, ящерицы и т. Д., Редко встречающиеся в изображениях) может быть сложно собрать подходящие помеченные обучающие изображения. Репозиторий OIDv4 (или более поздняя версия) - мощный инструмент для простого извлечения дополнительных изображений с метками для определенных классов. Однако, если класс меньшинства очень редок, то он вряд ли существует в библиотеке классов OID.

Большинство людей захотят, чтобы ваша модель была обобщена для классификации…. все! 😬 Заблаговременно обсудите со своими заинтересованными сторонами концепцию, согласно которой ваша модель будет определять только классы объектов, определенные во время обучения.

Заключительные замечания

Обе модели привели к аналогичной наземной точности и отзыву, поэтому ваш выбор может сводиться к архитектуре (как это было для нас). Если вам нужна простота интеграции GCP с простой маркировкой изображений, AutoML - явный победитель. Однако, если вы хотите залезть под капот и настроить свою модель, YOLOv5 может быть вашим ответом.

Мэтт Уиллер (Matt Wheeler) - специалист в области данных и аналитики слалома.

Slalom - это современная консалтинговая компания, «ориентированная на цифровые и облачные технологии», которая глубоко ценит все, что данные и аналитика могут принести компании. Во всех наших офисах по всему миру мы помогаем нашим клиентам прививать современную культуру да та и научиться уважать роль, которую они играют как ее владельцы и распорядители.

Использованная литература: