ML Kit от Firebase: Android против iOS с использованием DeltaML

В нашем посте примерно месяц назад мы сравнили два основных SDK для распознавания текста на устройстве на iOS: Firebase’s ML Kit и Tesseract OCR. Результаты были довольно односторонними, поскольку ML Kit превзошел Tesseract по многим прогнозам и показал гораздо лучшую точность, даже когда он потерпел неудачу.

В самом конце нашего поста мы показали сводку результатов на устройствах Android. Мы увидели, что Tesseract OCR на Android не так уж далека от ML Kit. Но мы также увидели, что ML Kit на устройствах Android работает не так хорошо, как на устройствах iOS. Мы поделились подробностями наших результатов Android здесь:



Чтобы сравнить производительность ML Kit на Android и iOS, давайте пойдем немного другим путем, чем мы пошли ранее. Сначала мы разделим имеющийся у нас набор данных на блоки в зависимости от содержания изображений. Мы можем разделить набор на 6 различных подмножеств данных следующим образом:

  1. Обычный текст
  2. Изогнутый или наклонный текст
  3. Цифровые изображения
  4. Изображения с низким контрастом или искажением текста
  5. Текст с необычными стилями и / или шрифтами
  6. Текст, который был непростой для людей

Мы будем использовать эти подмножества нашего набора данных в ML Kit, чтобы измерить разницу в производительности на обеих платформах. Вот краткое изложение наших результатов.

Обычный текст

Эти изображения имеют хороший уровень контрастности, а текст представлен типичными шрифтами, что упрощает их распознавание. Основные выводы:

  • На Android корректность на 20% меньше.
  • Уровень успеха - 50% на Android; 86% на iOS

Изогнутый или наклонный текст

На этих изображениях текст не выстроен по прямой линии; скорее, он либо повернут, либо имеет изогнутую форму. Это затрудняет правильное распознавание. Таким образом, количество правильных распознаваний на обеих платформах значительно снизилось. Основные выводы:

  • Корректность на Android на 25% меньше
  • Уровень успеха составляет всего 20% на Android; 42% на iOS.

Цифровые изображения

Эти изображения содержали только цифры или специальные символы, без алфавитов. Это дает нам хорошее представление о случаях, когда нужно распознавать числовые строки, например: номерные знаки, лотерейные билеты, номера кредитных карт и т. Д. Основные выводы:

  • Правильность на 43% меньше на Android
  • Уровень успеха - 27% на Android; 70% на iOS.

Изображения с низким контрастом или искажением текста

Мы также нашли 141 изображение с нарушениями внутри текста (или с более низким контрастом). Мы не ожидали очень хорошей производительности на обеих платформах, но iOS снова вышла вперед. Основные выводы:

  • Корректность была на 33% меньше на Android
  • Уровень успеха - 22% на Android; 58% на iOS.

Текст с необычными стилями и / или шрифтами

На этих изображениях текст представлен необычными шрифтами, что затрудняет их обнаружение со 100% точностью. В большинстве случаев текст обнаруживался, но не распознавался правильно. Как видно ниже, частота отказов выше, чем вероятность успеха для обеих платформ. Кроме того, показатель успеха для iOS довольно близок к показателю «Нет результатов» на Android. Основные выводы:

  • На Android корректность на 34% меньше
  • Уровень успеха - 15% на Android; 44% на iOS.

Текст, который был непростой для людей

43 изображения содержат текст, который людям было не так легко читать без особых усилий. Как и ожидалось, у ML Kit были похожие проблемы. Так было с Firebase ML Kit на данный момент. Основные выводы:

  • Правильность на 35% меньше на Android
  • Уровень успеха составляет всего 2% на Android; 9% на iOS

Заключительные слова

Эти результаты ясно показывают, что iOS лидирует в гонке за повышение эффективности ИИ мобильных устройств - по крайней мере, с точки зрения распознавания текста. И это не совсем близко. Как упоминалось в статье Джеймсон Тул Сравнительный анализ TensorFlow Mobile на производственных устройствах Android, одно из первоклассных устройств Android (Samsung Galaxy S9) по-прежнему в 10 раз медленнее, чем iPhone X, и в 100 раз медленнее, чем новый iPhone XS.



Когда дело доходит до машинного обучения на устройстве, команде Android действительно нужно быстро реагировать, чтобы остаться в этой гонке.

Обсудите этот пост в Hacker News и Reddit.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.