Обзор статьи 1 - Чтение цифр в естественных изображениях с контролируемым изучением функций

Эта статья, опубликованная в НИПС 2011 года, довольно старая. Но тогда у него было несколько интересных идей. В документе описывается, как использование автоматического обучения признакам с использованием автокодировщиков приводит к значительному повышению производительности определения номеров улиц на реальных изображениях. Производительность сравнивалась с традиционными HOG и ручными методами проектирования функций.

В наши дни почти все статьи с резюме почти не содержат пользовательских функций графических данных, созданных вручную. Использование некоторой методологии глубокого обучения для получения репрезентативного вектора признаков для изображения (для последующего использования в каком-нибудь классификаторе) стало установившейся практикой. Показывает достижения в области CV.

Данные

Возвращаясь к этой статье, еще один важный вклад - создание набора данных SVHN (номера домов для просмотра улиц). Данные состоят из чуть более 73К изображений для поездов и 26К изображений для тестов. Он также имеет больший дополнительный набор данных из 531K изображений.

Эти данные были сгенерированы из изображений улиц Google с использованием следующего процесса: 1. Был случайным образом взят большой набор изображений из различных городских районов в разных странах. 2. С помощью детектора домов с раздвижными окнами были отобраны изображения с номерами домов. Чтобы ограничить смещение от детектора скользящего окна, пороговые значения были выбраны таким образом, чтобы больше изображений FP отправлялось сотрудникам Amazon Mechanical turk. 3. Далее работники AMT вручную пометили изображения. Это сгенерировало наборы данных для поездов и тестов. Дополнительные изображения были выбраны с высокой точностью, но с низким уровнем запоминания, что, возможно, привело к тем изображениям, на которых «легко» определить номера домов.

Методология

Весь конвейер разбит на 1) этап обнаружения - то есть определение местоположения отдельных номеров домов на изображении; 2) этап распознавания - классификация номера дома в обнаруженном номере дома. В этом документе показаны улучшения на этапе 2, этапе распознавания.

В документе в качестве основы используются функции HOG и созданные вручную двоичные функции и автоматические функции, созданные с помощью неконтролируемых методов, таких как составные разреженные автокодировщики и k-средних. Это было до того, как CNN стали мейнстримом и стало возможным сквозное обратное распространение. Сложенные автокодировщики обучались послойно, а затем складывались. Затем от декодера отказались. Затем кодировщик используется как нелинейная функция, которая сопоставляет входные изображения с K-мерным вектором признаков. Затем это было использовано в линейной SVM для классификации цифр.

Еще одно неконтролируемое извлечение признаков было основано на K-средних, где были изучены K линейных фильтров (K - центроиды).

Предположения

Номера улиц на изображениях выровнены по горизонтали и между ними нет перекрытия. Если изображения повернуты случайным образом, возможно, производительность этих алгоритмов сильно снизится. Сами авторы предлагают этап обработки выравнивания для исправления таких изображений.

Результаты

Результаты ясно показывают, что методы неконтролируемой генерации функций вытеснили традиционные, созданные вручную, элементы из воды. K-средство работает лучше, чем составные разреженные автокодировщики. Интересно отметить, что производительность человека составила 98%. В разделе, посвященном возможностям человека, также объясняется, что человеческие ошибки были больше в тех областях, где отсутствует «контекст» изображения (показывая людям только часть номера дома) или когда само изображение размыто. Еще одно интересное наблюдение (которое сейчас стало общеизвестным) заключается в том, что большее количество данных повысило точность неконтролируемых алгоритмов.

Не совсем понял

На странице 5 (параграф выше, раздел 4), где авторы описывают, как система обучения признаков на основе K-средних использовалась для извлечения признаков изображения, мне не совсем понятно. Как был изучен большой банк линейных фильтров K, неясно.

Вывод

В целом интересный документ для чтения в 2018 году. Он показывает достижения в области CV в целом и то, как эта проблема все еще не решена полностью в MNIST.