Автор Tonghui

Являясь одним из четырех основных технических направлений Frontend-комитета Alibaba, интерфейсный интеллектуальный проект создал огромную ценность во время фестиваля Double 11 Shopping в 2019 году. Интерфейсный интеллектуальный проект автоматически сгенерировал 79,34% кода для новых модулей Taobao и Tmall. За это время команда R&D испытала множество трудностей и много думала, как их решить. В серии «Интеллектуальное создание кода внешнего интерфейса из файлов дизайна» мы рассказываем о технологиях и идеях, лежащих в основе интеллектуального проекта внешнего интерфейса.

Обзор

В течение долгого времени точная генерация кода пользовательского интерфейса из файлов дизайна возлагала большую нагрузку на инженеров-разработчиков внешнего интерфейса. Такая работа повторяется и технически проста, но визуальные дизайнеры должны приложить много усилий, чтобы проработать код и тратить значительное количество времени на обмен информацией.

Мы можем легко получить точные данные, используя плагины инструментов дизайна, таких как Sketch и Photoshop. Некоторые особенности изображений могут быть потеряны, а анализ изображений может оказаться более сложной задачей. Итак, почему мы все еще используем изображения в качестве источника ввода? Вот причины:

1) Изображения обычно приводят к более четким и определенным результатам в производственной среде. Использование изображений в качестве входного источника не ограничивается предшествующими процедурами производственного процесса.

2) Файлы дизайна отличаются от кода разработки макетом. Например, файлы дизайна не поддерживают макеты, такие как listview и gridview.

3) Внешний вид на основе изображений широко используется в нашей отрасли. Например, подход на основе изображений поддерживает возможности автоматического тестирования и позволяет напрямую сравнивать наши данные с продуктами конкурентов для проведения бизнес-анализа. Другие подходы не поддерживают этого.

4) Файлы дизайна содержат слои, расположенные друг над другом. Подход, основанный на изображениях, может лучше объединить слои.

Сегментация изображений - важная часть уровня обработки изображений в проекте D2C. Он включает в себя анализ страницы, сложную фоновую обработку, распознавание макета и извлечение атрибутов. В этой статье показано, как анализировать страницу, а затем извлекать информацию из сложного фона. Во время анализа страницы изображение сегментируется на несколько блоков, а затем делится на разные узлы в зависимости от содержимого. Во время сложной фоновой обработки некоторые элементы наложения извлекаются на основе анализа страницы.

Возможности распознавания D2C: техническая архитектура

Эта статья посвящена возможностям обработки изображений интеллектуального проекта D2C. Этот уровень возможностей в основном отвечает за распознавание категорий элементов и извлечение стилей из изображений. Он также обеспечивает поддержку уровня алгоритма компоновки.

Анализ страницы

При анализе страниц мы имеем дело с извлечением модуля переднего плана и фоновым анализом изображений пользовательского интерфейса для извлечения элементов графического интерфейса пользователя из файлов дизайна с использованием алгоритма разделения переднего плана и фона.

1) Анализ фона. При анализе фона мы анализируем цвета, направление градиента и связанные компоненты фона с помощью алгоритмов машинного зрения.

2) Анализ переднего плана. При анализе переднего плана мы организуем, объединяем и распознаем фрагменты графического интерфейса пользователя с помощью алгоритмов глубокого обучения.

Фоновый анализ

Ключ к фоновому анализу - найти связанные компоненты фона и закрытые интервалы. Конкретные шаги:

Шаг 1: Определите блоки фона и вычислите направление градиента с помощью метода обнаружения краев, такого как Собел, Лапласиан и Кэнни, чтобы получить области фона с чистым цветом и области градиентного фона. Дискретный шаблон на основе оператора Лапласа для выделения фоновых областей выглядит следующим образом:

Мы также можем собрать статистику о тенденции движения фона, чтобы определить, есть ли у фона градиенты. Если фон имеет градиенты, обработка уточнения выполняется на шаге 2.

Шаг 2: выберите начальные узлы на основе алгоритма заливки, чтобы отфильтровать шум в областях градиентного фона.

def fill_color_diffuse_water_from_img(task_out_dir, image, x, y, thres_up = (10, 10, 10), thres_down = (10, 10, 10), fill_color = (255,255,255)):
    """
    Flood fill: changes the image
    """
    # Acquire the height and the width of the image.
    h, w = image.shape[:2]
    # Create a mask layer sized h+2 and w+2.
    # Note that OpenCV stipulates that
    # the shape of the layer must be sized h+2 and w+2 with 8 bits per channel.
    mask = np.zeros([h + 2, w + 2], np.uint8)
    # Perform a flood fill. The parameters are follows:
    # copyImg: the image on which the flood fill is to be performed.
    # mask: the mask layer.
    # (x, y): the fill start location (starting seed node).
    # (255, 255, 255): the fill value, which indicates the white color.
    # (100,100,100): the maximum negative difference between the starting seed node and the pixel values of the entire image.
    # (50,50,50): the maximum positive difference between the starting seed node and the pixels values of the entire image.
    # cv.FLOODFILL_FIXED_RANGEL: the image processing method, which is usually used to process color images.
    cv2.floodFill(image, mask, (x, y), fill_color, thres_down, thres_up, cv2.FLOODFILL_FIXED_RANGE)
    cv2.imwrite(task_out_dir + "/ui/tmp2.png", image)
    # The mask is an import region, which displays the filled regions and the colors filled in these regions.
    # For UI automation, the mask can be set to a shape that uses the maximum width and height as the size.
    return image, mask

Сравнение исходного изображения и обработанного изображения выглядит следующим образом:

Шаг 3. Извлеките элементы графического интерфейса с помощью сегментации макета.

Теперь мы успешно наложили изображение и извлекли из него модули содержимого. Более подробную информацию можно получить из анализа переднего плана и извлечь из сложного фона.

Анализ переднего плана

Ключ к анализу переднего плана заключается в полной сегментации и распознавании компонентов. Мы выполняем анализ связанных компонентов, чтобы предотвратить фрагментацию компонентов, распознавать типы компонентов с помощью машинного обучения, а затем объединять фрагменты по типам компонентов. Затем мы повторяем эти операции до тех пор, пока не останется фрагмент объекта или фрагмент атрибута. В качестве примера возьмем извлечение целого объекта из водопада:

Используя в качестве примера страницу на Xianyu (популярной платформе купли-продажи подержанных товаров в Китае), распознавание карточек в водопадном потоке важно для реализации анализа макета. Когда карточка полностью отображается в виде снимка экрана (разрешены значки над карточкой), ее необходимо полностью распознать. Однако, если фон закрывает карту, закрытая часть не должна распознаваться. Как показано на предыдущем рисунке, карточки водопадных потоков имеют различные стили и отображаются компактно. В результате некоторые компоненты могут быть упущены, а при обнаружении могут возникнуть ошибки.

Мы можем использовать обычные методы обработки изображений на основе краевого градиента или связанные компоненты для извлечения контуров карт водопадных потоков на основе оттенков серого и характеристик формы изображения. Эти методы обеспечивают высокую производительность с точки зрения оценки IoU и скорости вычислений. Однако эти методы подвержены помехам и имеют низкую скорость отзыва.

Методы глубокого обучения, основанные на обнаружении объектов или обнаружении характерных точек, изучают стилевые особенности карточек под контролем. Эти методы нелегко поддаются влиянию помех и имеют высокую скорость отзыва. Однако их оценка IoU ниже, чем у традиционных методов обработки изображений, поскольку они включают процесс регрессии. Они также требуют огромных усилий для ручной маркировки, что приводит к более медленным вычислениям.



Вдохновленные ансамблевым обучением, мы объединили традиционные методы обработки изображений с методами глубокого обучения, чтобы использовать их соответствующие преимущества для получения результатов распознавания с высокой точностью, высокой полнотой и высокими показателями IoU.

На следующем рисунке показан процесс обычного алгоритма обработки изображений:

1) Преобразуйте входное изображение карты водопадного потока в изображение в градациях серого и улучшите изображение в градациях серого с помощью алгоритма адаптивного выравнивания гистограммы с ограничением контраста (CLAHE).

2) Выполните обнаружение краев с помощью оператора Кэнни, чтобы получить двоичное изображение.

3) Выполните расширение на основе морфологии двоичного изображения, чтобы соединить разъединенные края.

4) Выделите внешние контуры непрерывных кромок и отбросьте те, которые покрывают относительно небольшие области, чтобы получить возможные контуры.

5) Выполните прямоугольную аппроксимацию с помощью алгоритма Дугласа-Пекера и сохраните контуры, очень похожие на прямоугольник, в качестве новых возможных контуров.

6) Спроецируйте возможные контуры, полученные на шаге 5, в горизонтальном и вертикальном направлениях, чтобы получить гладкие контуры в конечном результате.

Шаги с 1 по 3 алгоритма - это шаги обнаружения края.

Качество изображения может ухудшиться из-за различных факторов. Следовательно, изображение необходимо улучшить, чтобы повысить эффективность обнаружения краев. Выравнивание всего изображения с помощью одной гистограммы - не лучший выбор, поскольку контраст может значительно различаться в разных областях захваченного изображения водопадного потока. Это может привести к появлению артефактов на улучшенном изображении. Некоторые исследователи предложили использовать алгоритм адаптивного выравнивания гистограммы (AHE) в сценариях с одной гистограммой, поскольку он основан на блочной обработке. Однако алгоритм AHE может усиливать шум на краях.

Позже, основываясь на AHE, некоторые исследователи предложили использовать Contrast Limited AHE (CLAHE) для устранения шумовых помех с использованием порога контрастности. Как показано на гистограмме ниже, части, превышающие пороговое значение гистограммы, не отбрасываются при использовании CLAHE, а вместо этого равномерно распределяются в других ячейках.

Оператор Кэнни - это классический оператор обнаружения кромок, который можно использовать для получения точных положений кромок. Обнаружение канни края обычно включает в себя следующие шаги:

1) Выполните уменьшение шума с помощью гауссовой фильтрации.

2) Рассчитайте значение и направление градиента методом конечных разностей на основе частной производной первого порядка.

3) Выполните не-максимальное подавление значения градиента.

4) Определите и соедините края, используя двойные пороги. В ходе процесса мы предприняли несколько попыток выбрать оптимальные параметры двойного порога.

Обнаруженные края могут быть отключены в некоторых точках. Мы можем использовать метод расширения на основе морфологии на двоичном изображении, используя структурные элементы определенных форм и размеров, чтобы соединить разъединенные края. На следующем рисунке показаны результаты обнаружения края. Результат в © получается с помощью CLACHE, в котором порог контрастности установлен на 10,0, а размер области установлен на (10,10). Результат в (d) получается путем выполнения обнаружения Кэнни, в котором двойные пороги установлены на (20,80). Результат в (e) получается путем выполнения расширения на основе морфологии и использования крестообразного структурного элемента размером (3,3).

В процессе алгоритма шаги с 4 по 6 являются этапами выделения контура. После выполнения расширения на основе морфологии бинарных изображений сначала извлекаются внешние контуры с непрерывными краями. Как показано на следующем рисунке, двоичное изображение имеет области, содержащие только 0 или 1 бит. Мы предполагаем, что область S1 состоит из точек фона со значением пикселя 0. Область S2 состоит из точек переднего плана со значением пикселя 1. Внешний контур B1 состоит из крайних точек переднего плана, а внутренний контур B2 состоит из точек переднего плана. самые сокровенные точки переднего плана. Мы можем присвоить разные целочисленные значения разным краям контура, сканируя двоичное изображение, чтобы определить типы контуров и отношения слоев. После извлечения внешних контуров мы вычисляем области, покрытые внешними контурами, и отбрасываем те, которые покрывают относительно небольшие области, чтобы получить начальные предполагаемые контуры.

Контуры карточек водопадов на странице Xianyu представляют собой приблизительные прямоугольники с изогнутыми по дуге углами. Мы выполняем прямоугольную аппроксимацию извлеченных потенциальных контуров с помощью алгоритма Дугласа-Пекера и сохраняем контуры, которые напоминают прямоугольник. После этого мы используем алгоритм Дугласа-Пекера, чтобы подогнать группу точек, представляющих кривую или многоугольник, к другой группе с меньшим количеством точек, чтобы расстояние между двумя группами точек соответствовало указанной точности. Таким образом мы можем получить вторую версию контуров-кандидатов.

Когда у нас есть вторая версия, мы проецируем исходные потенциальные контуры на позиции второй версии потенциальных контуров в горизонтальном и вертикальном направлениях, чтобы удалить заусенцы и получить прямоугольные контуры.

На следующем рисунке показаны результаты извлечения контура. Результат в © получается путем установки порога площади контура на 10000. Результат в (d) получается путем установки точности 0,01 ° ¡длины контура в алгоритме Дугласа-Пекера. Все извлеченные контуры в этой статье содержат поля ввода.

Давайте посмотрим, как работает обработка изображений на основе машинного обучения.

В традиционных алгоритмах контуры извлекаются с помощью обычных методов обработки изображений. Проблема в том, что когда изображение недостаточно четкое или покрыто, контуры не могут быть извлечены. Итак, отзыв плохой.

Более репрезентативные и отличительные особенности могут быть изучены на основе огромных объемов выборочных данных с использованием алгоритма обнаружения объектов на основе сверточной нейронной сети. В настоящее время алгоритмы обнаружения объектов подразделяются на два семейства: двухэтапные алгоритмы, представленные областями со сверточной нейронной сетью (R-CNN), и одноэтапные алгоритмы, представленные You Only Look Once (YOLO) и Single Shot MultiBox Detector (SSD). .

Одноэтапные алгоритмы напрямую классифицируют предсказанные объекты и выполняют регрессию. Эти алгоритмы работают быстро, но имеют более низкую среднюю точность (mAP), чем двухэтапные алгоритмы. Если вы используете двухэтапные алгоритмы, вы должны сначала создать области объектов-кандидатов перед классификацией и регрессией для прогнозируемых объектов. Это упрощает конвергенцию во время тренировки. Следовательно, эти алгоритмы имеют более высокую MAP, но меньшую скорость вычислений, чем одноступенчатые алгоритмы.

Независимо от того, используете ли вы одноэтапный алгоритм или двухэтапный алгоритм, выполните общий процесс обнаружения объекта следующим образом: Первый шаг - обработка входного изображения в сети извлечения признаков (выберите зрелую CNN на основе VGG, Inception , или Resnet), чтобы изучить особенности изображения. Затем обработайте характеристики указанных регионов отдельно в классификаторе и регрессоре для классификации и регрессии позиций. Таким образом вы можете получить категории и положение ограничивающих рамок.

Наибольшее преимущество использования Faster R-CNN заключается в том, что он интегрирует процесс создания потенциальных целевых регионов во всю сеть. Это значительно улучшает общую производительность, особенно с точки зрения скорости обнаружения. На следующем рисунке показана базовая структура Faster R-CNN.

Модель Faster R-CNN состоит из четырех основных частей:

1) Сверточные слои: Faster R-CNN как сеть извлечения элементов извлекает элементы изображения, используя группу базовых слоев (сверточные слои, ReLU и слои объединения). Эти функции используются совместно в сети региональных предложений (RPN) и на полностью подключенном уровне.

2) Сеть предложений региона (RPN): RPN используется для создания ограничивающих рамок кандидатов, определения того, принадлежит ли ограничивающая рамка кандидата к переднему или заднему плану, с помощью функции softmax и выполнения регрессии на ограничивающие рамки кандидатов, чтобы исправить положение ограничивающих рамок кандидатов.

3) Уровень объединения областей интереса (RoI): на этом уровне собираются входные изображения и области-кандидаты. Затем области-кандидаты отображаются на фиксированные размеры и передаются на полностью связанный уровень.

4) Классификатор. Классификатор вычисляет конкретные категории ограничивающих прямоугольников-кандидатов и снова выполняет регрессию, чтобы исправить положение ограничивающих прямоугольников-кандидатов.

Результаты распознавания карт водопадных потоков с помощью Faster R-CNN показаны на следующем рисунке.

Используйте метод ансамбля, комбинируя обычный алгоритм с алгоритмом машинного обучения

Мы можем использовать обычные алгоритмы обработки изображений для получения результатов распознавания карт с высоким IoU. Однако обычные алгоритмы плохо отзываются, и карта с правой стороны не обнаруживается. Алгоритм глубокого обучения, основанный на обнаружении объектов, обладает высокой способностью к обобщению и может обеспечить относительно высокую степень полноты. Однако позиции карт не могут быть получены с высоким IoU в процессе регрессии. Как показано на изображении © следующего рисунка, обнаруживаются все карты, но края двух карт перекрываются друг с другом.

Мы можем получить результаты обнаружения с высокой точностью, отзывчивостью и оценками IoU, объединив результаты, полученные с помощью этих двух алгоритмов. Процесс комбинирования выглядит следующим образом:

1) Сначала получаем ограничивающие прямоугольники (trboxes и dlboxes) карточек. Мы делаем это с помощью параллельного использования обычного алгоритма обработки изображений и алгоритма глубокого обучения. В этом подходе trbox используется как эталон IoU, а dlbox - как эталон точности и отзыва.

2) Выберите trbox. Когда IoU trbox и dlbox больше указанного порога (например, 0,8), оставьте trbox и назовите его trbox1. В противном случае выбросьте его.

3) Выберите dlbox. Когда IoU dlbox и trbox1 больше указанного порога (например, 0,8), отбросьте dlbox. В противном случае оставьте этот dlbox и назовите его dlbox1.

4) Исправьте положение dlbox1. Переместите каждый край dlbox1 к ближайшей прямой, чтобы получить исправленный dlbox. Не перемещайте край больше, чем указанный порог перемещения (например, 20 пикселей), и перемещенный край не может пересекать ни один край trbox1. Затем назовите этот исправленный dlbox как dlbox2.

5) Объедините trbox1 и dlbox2, чтобы получить окончательную ограничивающую рамку карты.

Результаты:

Сначала взгляните на несколько основных показателей.

Истинно положительный (TP): количество образцов, которые модель правильно предсказывает как положительные.

True Negative (TN): количество образцов, которые модель правильно предсказывает как отрицательные.

Ложно-положительный результат (FP): количество образцов, которые модель неверно предсказывает положительным.

Ложноотрицательный (FN): количество выборок, которые модель неправильно предсказывает как отрицательные.

Прецизионность = TP / (TP + FP): отношение фактических положительных образцов к образцам, прогнозируемым как положительные.

Напомним = TP / (TP + FP): отношение выборок, которые модель правильно спрогнозировала как положительные, к общему количеству правильно спрогнозированных выборок.

Пересечение над объединением (IoU) = Размер набора пересечений двух блоков / Размер объединенного набора двух блоков

На предыдущем рисунке показаны результаты распознавания двух карт, полученные с использованием разных алгоритмов. Результат в (г) лучше, чем в (б), потому что он имеет более высокий отзыв. Результат в (d) лучше, чем в ©, потому что он имеет более высокий IoU. Результаты распознавания некоторых образцов изображений показаны на следующих рисунках. На каждом рисунке показано сравнение результатов распознавания, полученных с использованием разных алгоритмов. Первое изображение каждого рисунка слева направо является входным изображением; вторая показывает карту, распознанную с помощью обычного алгоритма обработки изображений, третья показывает две карты, распознанные с использованием алгоритма глубокого обучения, а последняя показывает две карты, распознанные с использованием метода ансамбля.

На первом и втором рисунках контуры карт распознаются точно.

Нижние края карточек, распознанные с помощью ансамблевого метода, показанного на третьем рисунке, не совпадают с нижними краями l карточек. Эта проблема возникает из-за того, что при корректировке положения dlbox1 в процессе комбинирования использовался обычный алгоритм обработки изображений для поиска ближайшей прямой линии для каждого края ограничивающего прямоугольника карты. Полученные прямые линии не были краями карт, потому что стили карт были разными.

В нашем тесте мы случайным образом сделали 50 скриншотов с карточками водопада на страницах Xianyu. Эти снимки экрана содержат всего 96 карточек (без учета полей ввода). Каждое изображение обрабатывается отдельно с использованием обычного алгоритма обработки изображений, алгоритма глубокого обучения и метода ансамбля для получения результатов распознавания карты. Всего 65 карт распознаются с помощью обычного алгоритма обработки изображений, 97 карт распознаются с помощью алгоритма глубокого обучения, а 98 карт распознаются с помощью метода ансамбля. Показатели точности, отзыва и IoU показаны в следующей таблице. Результаты распознавания, полученные с помощью ансамблевого метода, демонстрируют преимущества как обычных алгоритмов обработки изображений, так и алгоритмов глубокого обучения: высокий IoU и отзыв.

Результаты, полученные с использованием разных алгоритмов:

Сводка алгоритмов переднего плана

Обработка переднего плана проиллюстрирована процессом распознавания карточек водопада на страницах Xianyu. Алгоритмы машинного зрения, наряду с алгоритмами машинного обучения, используются для завершения извлечения и распознавания элементов переднего плана.

Заключение

Мы описали извлечение элементов переднего плана и анализ фона. Затем мы предложили метод ансамбля, в котором обычные алгоритмы обработки изображений сочетаются с алгоритмами глубокого обучения для получения результатов распознавания с высокой точностью, отзывом и IoU. Однако у этого подхода все же есть недостатки. Например, на исправление составных элементов в процессе комбинирования влияет стиль изображения. Мы оптимизируем эту часть в будущем.

Извлечение контента из сложного фона

Извлечение контента из сложного фона - это извлечение определенного контента из сложного фона, например, извлечение определенного текста или слоев наложения из изображения.

Это проблема всей индустрии машинного зрения. Обычные алгоритмы обработки изображений имеют недостатки в точности и запоминании и не могут решить семантические проблемы. У распространенных алгоритмов машинного обучения также есть свои недостатки. Например, алгоритмы обнаружения объекта не могут получить информацию о положении на уровне пикселей, в то время как семантическая сегментация может извлекать пиксели, но не может получить информацию о пикселях, существующую до добавления полупрозрачного наложения.

В этой статье описывается новое решение, которое объединяет сеть обнаружения объектов с генеративной состязательной сетью (GAN) для решения этих проблем. Мы используем сеть обнаружения объектов для реализации отзыва контента и GAN для реализации извлечения и восстановления определенного контента переднего плана в сложном фоне.

Сложно-фоновая обработка включает следующие этапы:

Отзыв содержимого: сеть обнаружения объектов используется для вызова элементов и определения необходимости извлечения этих элементов из фона.

Определение области: проверьте, является ли текущая область сложной областью, используя алгоритм машинного зрения, такой как алгоритм на основе градиента.

Простая область: найдите блоки фона с помощью алгоритма на основе градиента.

Сложный регион: извлекайте контент с помощью суперреволюционной порождающей враждебной сети (SRGAN).

Отзыв контента

Мы можем реализовать отзыв контента с помощью сети обнаружения объектов, такой как Faster R-CNN и Mask R-CNN, как показано на следующем рисунке:

Определение региона

Мы можем вычислить периферийный градиент, используя оператор Лапласа, чтобы определить, является ли текущая область сложной областью.

Простой фон

Точность на уровне пикселей не может быть достигнута из-за ограничений модели обнаружения объектов. Следовательно, необходимо выполнить коррекцию положения. Позиции можно корректировать на основе градиентов на простом фоне. Конкретный процесс расчета выглядит следующим образом:

Сложный фон

На следующем рисунке показан сложный фон. Слева находится исходное изображение, а изображение справа показывает извлеченный текстовый блок.

Вы можете видеть, что извлеченные блоки не совсем правильные. В этом случае положения нельзя откорректировать с помощью алгоритмов машинного зрения. В этой статье предлагается решение для извлечения контента из сложного фона с помощью GAN. На следующем рисунке показана основная структура GAN.

Почему выбирают GAN?

1) На основе SRGAN в GAN добавляется функция потерь карты функций. Таким образом, высокочастотная информация может быть лучше сохранена для сохранения границ. Функция потерь карты объектов определяется следующим образом:

В этом уравнении функция потерь представлена ​​квадратом разницы между значением характеристики исходного изображения и значением сгенерированного изображения.

2) Скорость функции потерь может значительно снизить ложное обнаружение.

3) Что наиболее важно, когда задействовано свойство прозрачности, сеть сегментации семантики может только «извлекать» элементы, но не может «восстанавливать» их. GAN может восстанавливать пиксели, существовавшие до добавления наложения, при извлечении элементов.

Сетевой процесс обучения

Мы улучшили модель GAN, применив следующие аспекты в отношении бизнес-сцен:

Мы не выполняем повышающую дискретизацию с помощью модуля pixelShuffler, поскольку это не проблема сверхвысокого разрешения.

Когда входные изображения сложные, мы используем DenseNet и глубокую сеть для повышения точности.

Функция потери контента плохо справляется с обнаружением и подавлением шума. Следовательно, штраф за неверное определение шума увеличивается, как показано на следующем рисунке.

Пример 1 ожидаемых результатов:

Пример 2 ожидаемых результатов:

Заключение

В этом разделе описывается извлечение контента из сложного фона. Он также предоставляет решение для точного извлечения определенного содержимого переднего плана с помощью машинного обучения, дополненного обработкой изображений, для получения результатов распознавания с высокой точностью, отзывом и IoU.

На следующем рисунке показаны показатели производительности обычного алгоритма, сети сегментации семантики и метода ансамбля, предложенного в этой статье.

Бизнес-сценарии

Решение, предложенное в этой статье, применялось в следующих сценариях:

1) Ссылки на изображения imgcook: это решение может обеспечить точность 73% в общих сценариях и точность более 92% в определенных сценариях карточек.

2) Понимание содержания изображения во время автоматического тестирования Taobao. Этот метод был применен в распознавании модулей для Taobao 99 Mega Sale и Double 11 Shopping Festival. Общая точность, а также отзывчивость превышают 97%.

Перспективы

Мы планируем достичь следующих целей, касающихся рабочего процесса обработки изображений:

1) Обогатите и завершите информацию о макете, чтобы лучше распознавать информацию о макетах, таких как список, сетка и водопад.

2) Повышение точности и отзывчивости в общих сценариях. Для достижения этой цели мы представим ряд технологий, таких как сеть пирамиды функций (FPN) и Cascade.

3) Увеличьте применимость. В настоящее время метод применим только к страницам Xianyu и некоторым страницам Taobao. Мы планируем поддерживать больше страниц, чтобы улучшить обобщающие способности наших моделей обработки изображений.

4) Представьте машину с образцом изображения для поддержки более конкретных сценариев.

Первоисточник:



Получите доступ к экспертному обзору - Подпишитесь на DDI Intel