Встраивание слов, ограничивающая рамка, увеличение данных, экземплярная и семантическая сегментация, YOLO, YOLOv2 и YOLOv3, Darknet, R-CNN, Mask R-CNN, Fast R-CNN, Faster R-CNN, Сеть тестовых предложений Connectionist (CTPN), Optical Распознавание символов, сеть предложений рекуррентного коннекциониста, кодировщик-декодер на основе внимания для распознавания текста, двунаправленные представления кодировщика от преобразователей (BERT), BART, модель преобразователя, генерирующие состязательные сети, автоматизация процессов робототехники (RPA)

A. Встраивание слов

Встраивание слов - это тип представления слов, который позволяет алгоритмам машинного обучения понимать слова со схожим значением. Он использует языковое моделирование и технику изучения функций. Можно сказать, что это отображение слов в векторы действительных чисел с помощью нейронной сети, уменьшение размерности матрицы совпадения слов или вероятностная модель. Доступны различные модели встраивания слов, такие как word2vec (Google), Glove (Стэнфорд) и самый быстрый (Facebook).

Встраивание слов также называется распределенной семантической моделью, распределенным семантическим моделированием или моделью векторного пространства. Слово семантическое, которое означает объединение похожих слов в одну категорию. Например, фрукты, такие как яблоко, манго, банан, следует размещать близко, а книги - далеко от этих слов. В более широком смысле встраивание слов создаст вектор плодов, который будет размещен далеко от векторного представления книг. Основное использование встраивания слов: вычисление похожих слов, создание группы связанных слов, функция классификации текста, кластеризация документов, обработка естественного языка.

Для создания встраивания слов существует множество различных подходов, относительная ценность которых основана на том, насколько хорошо они размещают слова в векторном пространстве рядом друг с другом. В основном это две категории: (i). вероятностные подходы (например, использование нейронной сети для оптимизации встраивания) и (ii). Встраивание на основе частоты или подсчета (векторы подсчета, TF-IDF, матрица совпадений). В этом блоге мы обсудим только вероятностные подходы.

Word2vec

Word2vec представляет слова в векторном пространственном представлении. Слова представлены в виде векторов, и их размещение выполняется таким образом, что слова с одинаковым значением появляются вместе, а разнородные слова расположены далеко. Он фиксирует большое количество точных синтаксических и семантических отношений слов. Нейронные сети не понимают текст, а понимают только числа. Встраивание слов позволяет преобразовать текст в числовой вектор.

Архитектура Word2vec

Word2vec использует две архитектуры, обе архитектуры для изучения основных представлений слов для каждого слова с помощью нейронных сетей. Это включает,

  • Модель непрерывного мешка слов (CBOW)
  • Модель скип-грамм

я. Непрерывный мешок слов (CBOW)

В модели CBOW распределенные представления контекста (или окружающих слов) объединяются для предсказания слова в середине. Архитектура модели CBOW пытается предсказать текущее целевое слово (центральное слово) на основе слов исходного контекста (окружающих слов).

Давайте рассмотрим пример вроде «Быстрая коричневая лиса перепрыгивает через ленивую собаку», это могут быть пары (context_window, target_word), где, если мы рассмотрим контекстное окно размер 2, у нас есть такие примеры, как ([quick, fox], brown), ([the, brown], quick), ([the, dog], lazy) »и так далее. Таким образом, модель пытается предсказать thetarget_word на основе context_window слов.

Пропустить грамм

В модели Skip-gram распределенное представление входного слова используется для прогнозирования контекста слов или соседних слов.

Рассмотрим пример типа «У меня на завтрак апельсиновый сок и яйца». и размер окна 2, если целевым словом является сок, его соседними словами будут (иметь, апельсин и, яйца). Наша пара входных и целевых слов будет (сок, есть), (сок, апельсин), (сок и), (сок, яйца). Также обратите внимание, что в окне образца близость слов к исходному слову не играет роли. Таким образом, have, orange и, и яйца будут обрабатываться одинаково во время обучения.

Глобальные векторы для представления слов (GloVe)

GloVe, созданный на основе Global Vectors, представляет собой модель распределенного представления слов. Модель представляет собой алгоритм обучения без учителя для получения векторных представлений слов. Это достигается путем отображения слов в значимое пространство, где расстояние между словами связано с семантическим сходством. Он разработан в Стэнфорде как проект с открытым исходным кодом. Как модель лог-билинейной регрессии для неконтролируемого обучения представлениям слов, она сочетает в себе функции двух семейств моделей, а именно методов глобальной матричной факторизации и методов локального контекстного окна.

Подход Glove используется для улавливания значения одного слова, встраиваемого в структуру всего наблюдаемого корпуса. Модель GloVe обучается глобальному количеству совпадений слов и в достаточной степени использует статистику за счет минимизации ошибки наименьших квадратов и, как следствие, создания векторного пространства слов со значимой подструктурой. Такой план в достаточной степени сохраняет сходство слов с векторным расстоянием. Для количественной оценки родства двух слов метрики сходства, используемые для оценок ближайшего соседа, производят один скаляр. Эта простота может быть проблематичной, поскольку два заданных слова почти всегда демонстрируют более сложные отношения, чем могут быть зафиксированы одним числом. Например, мужчина может рассматриваться как похожий на женщину в том смысле, что оба слова описывают людей; с другой стороны, эти два слова часто считаются противоположностями, поскольку они подчеркивают основную ось, по которой люди отличаются друг от друга.

Чтобы количественно уловить нюанс, необходимый для различения мужчины от женщины, модели необходимо связать более одного числа с парой слов. На рисунке ниже основная концепция, которая отличает мужчина от женщины, т.е. пол или пол, может быть эквивалентно определена различными другими парами слов, такими как король и королева или брат и сестра. Чтобы сформулировать это наблюдение математически, можно ожидать, что векторные различия мужчина - женщина, король - королева и брат - сестра могут быть примерно равны.

GloVe может использоваться для поиска взаимосвязей между словами, такими как синонимы, отношения между компанией и продуктом, почтовые индексы, города и т. Д. Он также используется моделью spaCy для построения семантических встраиваний слов / векторов признаков при вычислении слов верхнего списка, которые соответствуют меры расстояния, такие как подход косинусного сходства и евклидова расстояния.

Примечание. Разница между Word2Vec и Glove:

Word2Vec Модель на основе нейронной сети с прямой связью для поиска встраиваемых слов, но Glove основана на методах матричной факторизации на матрице контекста слова. В алгоритме Glove он сначала создает большую матрицу (слова X контекст) информации о совместном появлении, т.е. для каждого «слова» (строк) вы подсчитываете, как часто мы видим это слово в некотором «контексте» (столбцы). в большом корпусе.

FastText (обогащение векторов слов информацией о подсловах)

Классификатор fastText представляет собой классификатор линейного набора слов (LBoW), чтобы подчеркнуть тот факт, что он использует линейную технику как для объединения векторов слов в вектор, представляющий документ, так и для вычисления критерия классификации. С целью эффективного изучения представлений слов и классификации предложений библиотека fastText, созданная исследовательской группой Facebook. Это бесплатная, легкая библиотека с открытым исходным кодом.

FastText поддерживает обучение непрерывному пакету слов (CBOW) или модели Skip-gram с использованием отрицательной выборки, softmax или иерархических функций softmax потерь.

Вложения Пуанкаре (вложения Пуанкаре для изучения иерархических представлений)

Вложения Пуанкаре - это последняя тенденция в сообществе обработки естественного языка, основанная на том факте, что мы используем гиперболическую геометрию (неевклидовы пространства постоянной отрицательной кривизны), чтобы зафиксировать иерархические свойства слов, которые мы не можем уловить напрямую в евклидовом языке. Космос. Нам необходимо использовать такую ​​геометрию вместе с шаром Пуанкаре, чтобы уловить тот факт, что расстояние от корня дерева до его листьев растет экспоненциально с каждым новым дочерним элементом, и гиперболическая геометрия способна представить это свойство.

Двумерные вложения Пуанкаре транзитивного замыкания поддерева млекопитающих WORDNET показаны ниже.

Б. Оптическое распознавание символов (OCR) на основе глубокого обучения

OCR - это технология, которая распознает и определяет местонахождение текста в цифровом изображении, например букв, цифр и символов. Он обычно используется для распознавания текста в отсканированных документах, но также служит для многих других целей. Некоторые программы OCR просто экспортируют текст, в то время как другие программы могут преобразовывать символы в редактируемый текст прямо на изображении. Расширенное программное обеспечение OCR может экспортировать размер и форматирование текста, а также макет текста на странице.

Нейронная сеть (NN) - прекрасный инструмент, который может помочь решить проблемы типа OCR. Нейронная сеть - это парадигма обработки информации, вдохновленная тем, как человеческий мозг обрабатывает информацию. НС - это наборы математических моделей, которые представляют некоторые наблюдаемые свойства биологических нервных систем и основываются на аналогиях адаптивного биологического обучения. В методологии Deep Learning OCR используются следующие шаги: a. Распознавание путем корректировки весовой матрицы, b. Алгоритм маркировки изображений, c. Нахождение границы и создание (X, Y) координатного массива пикселей, d. Сопоставление связанных пикселей с изученным набором, e. Словообразование. См. Процесс распознавания текста с использованием глубокого обучения, как показано ниже.

В сверточной рекуррентной нейронной сети (CRNN) это комбинация потерь CNN, RNN и CTC (Connectionist Temporal Classification) для задач распознавания последовательности на основе изображений, таких как распознавание текста сцены и OCR. Внизу CRNN сверточные слои автоматически извлекают последовательность признаков из каждого входного изображения. Поверх сверточной сети строится рекуррентная сеть для прогнозирования каждого кадра последовательности признаков, выводимой сверточными слоями. Хотя CRNN состоит из различных типов сетевых архитектур, ее можно совместно обучать с помощью одной функции потерь. Сетевая архитектура CRNN показана ниже.

В методах распознавания текста без сегментации отпадает необходимость в предварительно сегментированных входных данных. Обрезанные слова или целые текстовые строки обычно нормализуются геометрически, а затем их можно сразу распознать. В этом подходе к обнаружению глубокого обучения, такие как SSD, YOLO и Mask RCNN, также используются для обнаружения символов и слов. В моделях глубокого обучения может быть сложнее распознавать цифры и буквы, чем идентифицировать такие объекты, как собаки, кошки или люди. Часто они не достигают желаемой точности, поэтому необходимы специальные подходы. Архитектура ниже показывает, как гибридная модель CNN-LSTM изображена и вдохновлена ​​CRNN.

Приведенная выше система распознавания текста превосходит по точности ведущие коммерческие движки и системы с открытым исходным кодом на образцах искаженного текста.

С. Некоторые основные концепции

Увеличение объема данных

Чтобы значительно увеличить разнообразие данных, расширение данных - это стратегия, которая позволяет практикам использовать модели обучения без фактического сбора новых данных. Для обучения больших нейронных сетей обычно используются методы увеличения данных, такие как обрезка, заполнение и горизонтальное отражение. Однако большинство подходов, используемых при обучении нейронных сетей, используют только базовые типы дополнений. Популярные методы увеличения: переворот, вращение, кадрирование, перемещение, масштабирование, гауссов шум, увеличение смещения по горизонтали и вертикали, увеличение случайной яркости, увеличение случайного увеличения. Важным инструментом для преодоления переобучения обучающих данных современными CNN является увеличение данных, использование рандомизированных преобразований данных для значительного увеличения эффективного размера обучающей выборки. При увеличении данных случайным образом применяются определенные типы преобразований с сохранением меток в обучающие данные. Ниже приведены еще несколько методов увеличения данных.

Методы увеличения данных можно реализовать с помощью библиотек Sk-Image и OpenCV в Python.

Граничная рамка

Ограничивающая рамка представляет собой прямоугольную рамку, которая может быть определена координатами в верхнем левом углу и координатами в нижнем правом углу прямоугольника. При обнаружении объектов мы обычно используем ограничивающую рамку для описания целевого местоположения. В 4-мерном пространстве кодирует положение x-y, масштаб и соотношение сторон ограничивающей рамки. Чтобы разрешить несколько ограничивающих рамок в каждом изображении, в каждом месте размещается распределение Гаусса, а метки повторно нормализуются, чтобы в сумме получить единицу. Во время оценки предсказывается множество блоков, применяя подавление, отличное от максимума, к результирующему распределению вероятностей по ограничивающим прямоугольникам. Ограничивающие прямоугольники использовались для подсчета количества препятствий одного класса в толпе, в беспилотных автомобилях, дронах, камерах наблюдения, автономных роботах и ​​всевозможных системах, использующих компьютерное зрение. На рисунке ниже результат работы алгоритма представляет собой список ограничивающих рамок в формате [класс, координаты x, координаты y, ширина, высота, оценка достоверности].

Создание ограничивающих рамок на изображении используется для представления возможной области интереса (ROI). Как правило, все алгоритмы распознавания / обнаружения функций возвращают ROI в виде координат пикселей, а также ширины и высоты. На рисунке ниже первые три ограничивающих прямоугольника являются правильными, а последние три - неправильными обнаружениями для классов.

Регрессия ограничивающей рамки

В математической статистике дивергенция Кульбака – Лейблера (KL-дивергенция) (также называемая относительной энтропией) является мерой того, насколько одно распределение вероятностей отличается от второго, эталонного распределения вероятностей. В пропорциональной сети регионов на основе KL-дивергенции для обнаружения объектов изучение предложения региона с использованием глубоких нейронных сетей (DNN) разделено на две задачи: бинарная классификация и задача регрессии по ограничивающей рамке. В приведенной ниже сетевой архитектуре показано, что пропорциональная сеть KL-Region (KL-RPN) на Faster R-CNN. KL-RPN предсказывает среднее и стандартное отклонение смещения ограничивающей рамки.

В ограничивающем прямоугольнике потери регрессии, которые определяются как расхождение KL предсказанного распределения и достоверного распределения. По сути, обучение с потерей KL имеет три преимущества:

а. Регрессор ограничивающей рамки получает меньшие потери из-за неоднозначных ограничивающих рамок, и неоднозначности в наборе данных могут быть успешно зафиксированы.

б. Выученная дисперсия полезна во время постобработки.

c. Выученное распределение вероятностей поддается интерпретации. Поскольку он отражает уровень неопределенности прогноза ограничивающей рамки, он потенциально может быть полезен в последующих приложениях, таких как беспилотные автомобили и робототехника.

Давайте рассмотрим прогнозируемую координату ограничивающего прямоугольника p = (координата центра, ширина, высота) и соответствующие ему координаты наземной рамки g = (gx, gy, gw, gh), регрессор настроен на изучение масштабно-инвариантного преобразования между двумя центрами. и преобразование в логарифмическом масштабе между шириной и высотой. Все функции преобразования принимают p в качестве входных данных. На рисунке ниже преобразование между предсказанными и ограничивающими рамками истинности как,

На рисунке ниже сеть берет изображение с примерно локализованными ограничивающими рамками и уточняет их так, чтобы они плотно охватывали близлежащие объекты.

YOLO, YOLOv2 и YOLOv3: алгоритм для точного определения ограничивающих рамок

YOLO означает - YouOnlyLookOnce, что позволяет получить более точные ограничивающие рамки вывода. YOLO - это алгоритм обнаружения объектов, сильно отличающийся от алгоритмов на основе регионов. В YOLO единственная сверточная сеть предсказывает ограничивающие прямоугольники и вероятности классов для этих прямоугольников. При использовании скользящих окон алгоритм берет наборы окон, которые перемещаются по изображению, и получает набор скользящих окон. Затем, применив классификатор, мы можем увидеть, есть ли машина в этом конкретном скользящем окне или нет. На рисунке ниже мы можем увидеть, как прогнозируется ограничивающая рамка,

Работа алгоритма YOLO, сначала он берет изображение и разбивает его на сетку, внутри каждой сетки требуется несколько ограничивающих рамок. Для каждого ограничивающего прямоугольника сеть выводит вероятность класса и значения смещения для ограничивающего прямоугольника. Наконец, выбираются ограничивающие прямоугольники, имеющие вероятность класса выше порогового значения, и используются для определения местоположения объекта на изображении. YOLO на порядки быстрее (45 кадров в секунду), чем другие алгоритмы обнаружения объектов. Ограничение алгоритма YOLO заключается в том, что он борется с небольшими объектами на изображении, например, у него могут быть трудности с обнаружением стаи птиц. Это связано с пространственными ограничениями алгоритма. На рисунке ниже показано, как работает алгоритм YOLO для создания сетки и обнаружения окончательных изображений.

Для более точного прогнозирования ограничивающего прямоугольника с помощью алгоритма YOLOv3 он прогнозирует степень достоверности (объектность) для каждого ограничивающего прямоугольника с помощью логистической регрессии . Оценка достоверности должна быть равна 1, если предшествующий ограничивающий прямоугольник перекрывает наземный объект истинности больше, чем любой другой предшествующий ограничивающий прямоугольник. Например: в случае предшествующего 1 перекрывает первый наземный объект истинности больше, чем любой другой предшествующий ограничивающий прямоугольник (имеет самое высокое пересечение по объединению (IOU)), а предыдущий 2 перекрывает второй наземный объект истинности больше, чем любой другой предшествующий ограничивающий прямоугольник. Система назначает только одну ограничивающую рамку перед каждым наземным объектом. Если предшествующий ограничивающий прямоугольник не назначен объекту наземной истины, он не несет никаких потерь для прогнозов координат или классов, а только возражения. Если блок не имеет наивысшего долгового обязательства, но перекрывает наземный объект истинности более чем на некоторый порог, мы игнорируем прогноз.

Следующие шаги также связаны с прогнозированием ограничивающей рамки с использованием алгоритма YOLO в каждой ячейке сетки.

я. Во-первых, он прогнозирует граничные блоки B, и каждое поле имеет один балл достоверности,

II. Обнаруживает только один объект независимо от количества ящиков B,

iii. Предсказывает вероятности условного класса C (по одному на класс для вероятности класса объекта).

На рисунке ниже мы можем видеть работу YOLO-алгоритма для прогнозирования ограничивающего прямоугольника,

Здесь каждый наземный объект истинности связан только с одним ограничивающим прямоугольником. Если предшествующий ограничивающий прямоугольник не назначен, это не приводит к потере классификации и локализации, а только к потере уверенности в объектности.

Проблема YOLOv3 смещена в сторону размера объекта на изображении. Если во время обучения он сталкивается с более крупными объектами, он не может точно обнаружить тот же объект меньшего масштаба. Чтобы устранить эту двусмысленность, теперь доступен YOLO 5. Для более подробной информации вы можете прочитать следующую ссылку,



Якорные ящики

Якорные рамки - это набор предопределенных ограничивающих рамок определенной высоты и ширины. Эти поля определены для определения масштаба и соотношения сторон определенных классов объектов, которые вы хотите обнаружить, и обычно выбираются на основе размеров объектов в ваших наборах данных для обучения. В процессе обнаружения предопределенные якорные блоки размещаются по всему изображению, и сеть предсказывает вероятность и другие атрибуты, такие как фон, пересечение по объединению (IoU) и смещения для каждого мозаичного якорного блока. Прогнозы используются для уточнения каждого отдельного якорного блока. Мы можем определить несколько якорных ящиков для объектов разного размера. YOLO v2 представил якорные блоки, которые выполняют классификацию и прогнозирование в единой структуре. Они отвечают за прогнозирование ограничивающих рамок и предназначены для данного набора данных с использованием алгоритма кластеризации (кластеризация k-средних).

На рисунке ниже показано, как положение якоря определяется путем сопоставления местоположения сети.

Даркнет

Darknet - это фреймворк для обучения нейронных сетей, он имеет открытый исходный код, написан на C / CUDA и служит основой для YOLO. Можно сказать, что это основа CNN. Даркнет требует всего 5,58 миллиарда операций. Благодаря DarkNet, YOLO достигает 72,9% первой первой точности и 91,2% топ-5 точности на ImageNet. Darknet использует в основном фильтры 3 × 3 для извлечения функций и фильтры 1 × 1 для уменьшения выходных каналов. Он также использует глобальный средний пул для прогнозов. Подробное описание сети Darknet, как показано ниже:

Даркнет используется в качестве основы для обучения YOLO, что означает, что он устанавливает архитектуру сети. Сетевая архитектура CNN и даркнета показана ниже.

Семантическая и экземплярная сегментация

В задачах компьютерного зрения используются различные методы, такие как классификация, семантическая сегментация, обнаружение объектов и сегментация экземпляров. На рисунке ниже мы видим различия между всеми задачами, упомянутыми выше,

Семантическая сегментация - это задача пометить каждый пиксель изображения заранее определенной категорией объекта. Автономные транспортные средства и медицинские диагнозы - это различные сценарии, в которых требуется детальное понимание изображения.

Есть много способов описать сцену. Резюме сцены высокого уровня может быть получено путем прогнозирования тегов изображения, которые описывают объекты на изображении (например, «человек») или сцену (например, «город» или «офис»). Эта задача известна как классификация изображений. Задача обнаружения объектов, с другой стороны, направлена ​​на локализацию различных объектов на изображении путем размещения ограничивающих рамок вокруг каждого экземпляра заранее определенной категории объектов. Цель семантической сегментации для более точного понимания сцены путем присвоения метки категории объекта каждому пикселю в изображении. В задачах понимания сцены, таких как семантическая сегментация, позволяют компьютерам извлекать информацию из реальных сценариев и использовать эту информацию для выполнения поставленных задач. Семантическая сегментация имеет множество приложений, например, в автономных транспортных средствах, которым необходимо точное понимание окружающей среды на уровне пикселей, разработка роботов, которые могут перемещаться и манипулировать объектами в своей среде, диагностика заболеваний путем сегментации клеток, тканей и органов, представляющих интерес, изображение - монтаж видео и разработка «умных очков», описывающих сцену слепому. К семантической сегментации традиционно подходили с использованием вероятностных моделей, известных как условные случайные поля (CRF), которые явно моделируют корреляции между прогнозируемыми пикселями.

Эволюция систем семантической сегментации приведена ниже.

В случае сегментации экземпляра, которая направлена ​​на присвоение уникального идентификатора каждому сегментированному объекту на изображении, а также на устранение разрыва между обработкой естественного языка и компьютерным зрением с помощью таких задач, как добавление подписей к изображениям и визуальные ответы на вопросы, которые направлены на описание изображение в словах и ответы на текстовые вопросы по изображениям соответственно. Сегментация экземпляра определяет границы объектов на детальном уровне пикселей. В приведенном ниже примере в определенных местах есть 7 воздушных шаров, и это пиксели, принадлежащие каждому из шаров.

Фундаментальная концепция R-CNN, Fast R-CNN, Mask R-CNN, более быстрого алгоритма R-CNN

R-CNN

R-CNN - это сокращение от «Региональные сверточные нейронные сети». Основная идея состоит из двух шагов. Во-первых, используя выборочный поиск, он идентифицирует управляемое количество кандидатов области объекта ограничивающего прямоугольника («интересующая область» или «RoI»). А затем он извлекает характеристики CNN из каждого региона независимо для классификации. Цель R-CNN - захватить изображение и правильно определить, где в изображении находятся основные объекты (через ограничивающую рамку). На рисунке ниже показан обзор системы обнаружения объектов с использованием R-CNN, который представляет собой не что иное, как регионы с функциями CNN,

В системе обнаружения объектов используется R-CNN, имеющая три модуля.

I. Первый генерирует предложения регионов, не зависящие от категорий. Эти предложения определяют набор возможных обнаружений, доступных нашему детектору.

II. Второй модуль - это большая сверточная нейронная сеть, которая извлекает вектор признаков фиксированной длины из каждой области.

iii. Третий модуль - это набор линейных SVM, зависящих от класса.

Расположение всех трех модулей показано ниже.

Предложения по регионам

Пропорциональная сеть по регионам - это «нормальный» алгоритм, который работает «из коробки». Их не нужно тренировать или что-то в этом роде. Выборочный поиск - это алгоритм предложения региона, который используется при обнаружении объектов. Он построен на основе результатов сегментации изображения и использует характеристики на основе области (а не только атрибуты одного пикселя) для выполнения иерархической группировки снизу вверх. Он разработан, чтобы быть быстрым с очень высокой отзывчивостью. Он основан на вычислении иерархической группировки похожих регионов на основе совместимости цвета, текстуры, размера и формы. Выборочный поиск начинается с чрезмерной сегментации изображения на основе интенсивности пикселей с использованием метода сегментации на основе графиков. Результат работы алгоритма показан ниже.

Сеть предложений региона (RPN) принимает изображение (любого размера) в качестве входных данных и выводит набор предложений прямоугольных объектов, каждое из которых имеет оценку объектности. На рисунке ниже слева представлена ​​сеть предложений региона (RPN) и выборы справа с использованием предложений RPN по тесту PASCAL VOC 2007.

Fast R-CNN

Сеть Fast R-CNN принимает на вход все изображение и набор предложений объектов. Сеть сначала обрабатывает все изображение с несколькими сверточными слоями и слоями максимального объединения для создания сверточной карты признаков. Затем для каждого предложения объекта слой объединения областей интереса (RoI) извлекает вектор признаков фиксированной длины из карты признаков. Каждый вектор признаков передается в последовательность полностью связанных (fc) слоев, которые в конечном итоге разветвляются на два родственных выходных слоя: один, который производит оценки вероятности softmax для K классов объектов, плюс универсальный фоновый класс, и другой слой, который выводит четыре реальных -значные числа для каждого из K классов объектов. Каждый набор из 4 значений кодирует уточненные положения ограничивающей рамки для одного из классов K. Обучение всех весов сети с помощью обратного распространения - важная возможность Fast R-CNN. Fast R-CNN обучает очень глубокую сеть VGG16 в 9 раз быстрее, чем R-CNN, в 213 раз быстрее во время тестирования и достигает более высокого MAP на PASCAL VOC 2012. В архитектуре Fast-RCNN, показанной ниже, архитектура обучается от начала до конца с потерей многозадачности.

Fast R-CNN состоит из CNN (обычно предварительно обученной задаче классификации ImageNet) с последним уровнем объединения, замененным слоем «ROI pooling», а его последний уровень FC заменен двумя ветвями - a (K + 1) ветвь слоя softmax категории и ветвь регрессии ограничивающего прямоугольника для конкретной категории.

Для лучшего понимания работы Fast R-CNN ниже показана улучшенная эффективность и производительность конвейерной структуры сетей R-CNN и SPP.

Быстрее R-CNN

Faster R-CNN был впервые опубликован в 2015 году и является наиболее широко используемой современной версией семейства R-CNN. Более быстрая RCNN состоит из трех частей: уровней свертки, сети предложения региона (RPN), классов и прогнозирования граничных рамок. Архитектура Faster-RCNN показана ниже.

Сеть предложений по регионам (RPN) в более быстрой сверточной нейронной сети на основе регионов (Faster R-CNN) используется для принятия решения о том, «где» искать, чтобы снизить вычислительные требования всего процесса вывода. RPN быстро и эффективно сканирует каждое местоположение, чтобы оценить, нужно ли проводить дальнейшую обработку в данном регионе. Это достигается путем вывода k предложений ограничивающих рамок, каждое с двумя оценками, представляющими вероятность появления объекта или его отсутствия в каждом месте. Архитектура Faster R-CNN, которая представляет собой единую унифицированную сеть для обнаружения объектов и RPN, показана ниже.

На рисунке ниже представлена ​​структура обнаружения RCNN, которая состоит из многоступенчатых конвейеров, как i. Расчет предложения по региону ii. Настройка модели CNN iii. Обучение классификаторов SVM по классам iv. Обучение регрессору ограничивающей рамки для конкретного класса

Маска R-CNN

Mask R-CNN расширяет Faster R-CNN, добавляя ветвь для прогнозирования масок сегментации для каждой области интереса (RoI) параллельно с существующей ветвью для классификации и регрессии ограничивающего прямоугольника. Ветвь маски - это небольшой FCN, применяемый к каждому RoI, предсказывающий маску сегментации попиксельно. Mask R-CNN прост в реализации и обучении благодаря структуре Faster R-CNN, которая обеспечивает широкий спектр гибких архитектурных проектов. Кроме того, ветвь маски добавляет лишь небольшие вычислительные затраты, обеспечивая быструю систему и быстрое экспериментирование. Самое главное, что Faster RCNN не был разработан для попиксельного выравнивания между входами и выходами сети. Архитектура структуры Mask R-CNN для сегментации экземпляра показана ниже.

В Faster R-CNN имеет два выхода для каждого объекта-кандидата, метку класса и смещение ограничивающего прямоугольника; к этому мы добавляем третью ветвь, которая выводит маску объекта. Таким образом, Mask R-CNN - это естественная и интуитивно понятная идея. Но выход дополнительной маски отличается от выходных данных класса и блока, требуя извлечения гораздо более тонкой пространственной компоновки объекта. На рисунке ниже показано, как Mask R-CNN может сегментировать, а также классифицировать объекты на изображении.

Маска R-CNN использует ту же двухэтапную процедуру с идентичным первым этапом, которым является RPN. На втором этапе, параллельно с прогнозированием смещения класса и блока, Mask R-CNN также выводит двоичную маску для каждого RoI.

Наконец, высокоуровневые диаграммы ведущих фреймворков для обнаружения общих объектов приведены ниже:

D. Сеть текстовых предложений коннекционистов (CTPN)

CTPN обнаруживает текстовую строку в последовательности мелкомасштабных текстовых предложений непосредственно в сверточных картах функций. В архитектуре CTPN есть последовательные предложения, которые естественным образом связаны с помощью рекуррентной нейронной сети, которая плавно включается в сверточную сеть, что приводит к сквозной обучаемой модели. Традиционные подходы состоят из многоступенчатого конвейера. Эти алгоритмы в основном следуют восходящему подходу. Они начинаются с низкоуровневого обнаружения символов, а затем следуют многоступенчатым этапам, таким как фильтрация нетекстовых компонентов, затем построение текстовой строки и проверка. Это позволяет CTPN исследовать обширную контекстную информацию изображения, что делает его мощным средством обнаружения чрезвычайно неоднозначного текста. CTPN надежно работает с многомасштабным и многоязычным текстом без дальнейшей постобработки, в отличие от предыдущих восходящих методов, требующих многоэтапной постфильтрации.

Структура CTPN для обнаружения текста, как показано ниже,

В вышеупомянутой архитектуре CTPN выполняет следующие шаги: i. Сначала входное изображение проходит через предварительно обученную модель VGG16, обученную с помощью набора данных ImageNet. II. Приведены выходные характеристики последних сверточных карт модели VGG16. iii. Эти выходные данные проходят через пространственное окно 3 × 3. iv. Затем выходные данные после пространственного окна 3 × 3 проходят через 256-мерную двунаправленную рекуррентную нейронную сеть. v. Затем рекуррентный вывод подается на полностью подключенный уровень 512-D. vi. Наконец, мы подошли к выходному слою, который состоит из 3 различных выходных данных, 2k вертикальных координат, 2k текстовых / нетекстовых оценок и k значений бокового уточнения.

Традиционный метод обнаружения текста можно разделить на две категории: компонент соединения (CC) и скользящее окно. CC используется для различения текстовых / нетекстовых пикселей с помощью быстрого фильтра, а затем делит текстовые пиксели на штрихи или символы-кандидаты с использованием низкоуровневых свойств (интенсивность, цвет, градиент). Скользящее окно - это многоразмерное окно, которое перемещается по плотным изображениям на изображении. Символьное / несимвольное окно выделяется предварительно обученным классификатором с использованием вручную созданной функции или функции CNN на заднем слое. Большая проблема со скользящими окнами заключается в том, что это требует больших вычислительных ресурсов, поскольку вам нужно запускать классификатор на большом количестве Windows. В последних улучшениях в механизме слияния фреймов обнаружения уточнения стороны, перенос информации о высоте в место обнаружения и объединение, а также изменение сети BiLSTM на GRU, тем самым ускоряя обучение сети и время выполнения приложений, а также повышая эффективность сети. Основная идея заключается в том, что каждые два похожих предложения образуют пару и объединяют разные пары до тех пор, пока их нельзя будет больше объединять. Результаты бокового уточнения приведены ниже.

CTPN достаточно хорошо определяет горизонтальные тексты, но не работает с многоориентированными текстами. CTPN обнаруживает более длинные текстовые области, чем другие методы; Мы полагаем, что это связано с механизмом коннекционизма, который имеет тенденцию соединять горизонтально близкие текстовые предложения. Обнаруженные ограничивающие рамки текста выглядят так, как показано ниже:

E. Кодер-декодер на основе внимания для распознавания текста (AED)

Для распознавания рукописных математических выражений успешно применяется AED. В ADE есть два основных модуля: DenseNet для извлечения функций из текстового изображения и LSTM в сочетании с моделью внимания для прогнозирования выходного текста.

В моделях распознавания текста на основе внимания декодер периодически выводит прогнозы. В частности, предсказание предыдущего шага обычно внедряется в многомерное пространство признаков. Затем внедренный вектор будет непосредственно участвовать в следующем шаге декодирования в качестве ориентира. Как показано на рисунке ниже, неизменный цвет означает, что все веса наведения фиксированы в существующих основанных на внимании декодерах, независимо от корреляции между соседними символами.

Вышеупомянутая модель состоит из двух компонентов: (а) сеть сверточного кодировщика, которая извлекает элементы из входного изображения и преобразует их в визуальные представления высокого уровня. (b) сеть повторяющегося декодера, основанного на внимании, которая объединена с предложенным AEG (адаптивным шлюзом внедрения) для генерации целевых последовательностей.

В сети сверточного кодера экстрактор признаков на основе остаточной сети (ResNet) принят в качестве первичной структуры для сети сверточного кодера. Кодировщик сначала извлекает карту признаков из входного изображения, которое ограничено их воспринимающими полями. Чтобы увеличить область изображения для выражений признаков, он использует двухслойную сеть двунаправленной долгосрочной краткосрочной памяти (BLSTM) поверх карты признаков. На рисунке ниже показана архитектура нашей многослойной сверточной модели с семью слоями кодера и семью слоями декодера.

В сети декодера на основе рекуррентного внимания сеть декодеров на основе рекуррентного внимания нацелена на преобразование закодированных признаков в последовательность предсказания, где механизм внимания используется для выравнивания последовательности предсказания. Он имеет новый модуль под названием AEG для адаптивного усиления или ослабления влияния предыдущего предсказания на этапе декодирования, используя моделирование языка символов. Формулировка и три реализации AEG присутствуют в этой архитектуре. я. Проведены обширные эксперименты с различными тестами текста сцены, демонстрирующие превосходство в производительности и гибкость AEG. II. Архитектура AEG значительно улучшает устойчивость существующих декодеров внимания к различным шумовым помехам, например, размытию по Гауссу, шуму соли и перца и случайной окклюзии.

При извлечении функций DenseNet на основе AED мы использовали DenseNet для извлечения функций. DenseNet имеет прямые соединения от любых предыдущих уровней к последующим уровням, поэтому они помогают сети повторно использовать и изучать функции на разных уровнях. На рисунке ниже показана архитектура Fast DenseNet сверточной сети, имеющей структуру FDenseNet-U,

В декодере LSTM на основе внимания декодер LSTM предсказывает один символ за один временной шаг. Декодер предсказывает выходной символ на основе вектора внедрения ранее декодированного символа, текущего скрытого состояния декодера и текущего вектора контекста. Вектор контекста вычисляется механизмом внимания. Декодер инициализируется путем усреднения карты извлеченных признаков. На рисунке ниже показана архитектура LSTM-декодера, основанного на внимании.

Наконец, при проверке OCR, OCR для проверки текстовой строки как рукописного или печатного. Для строки рукописного текста ADE прогнозирует как символ. Если текстовая строка распознается как рукописная, она удалит эту текстовую строку из результата обнаружения текстовой строки. На рисунке ниже показан пример хорошего результата системы распознавания с использованием Deep Learning,

F. Сеть обнаружения и распознавания контейнерного текста (CTDRNet)

В области распознавания текста можно выделить три основных направления. К ним относятся: (а) упрощение трубопровода; (б) изменения в единицах прогноза; (б) определенные цели. CTDRNet состоит из трех компонентов: (i) обнаружение текста CTDRNet позволяет повысить точность обнаружения отдельных слов; (ii) распознавание текста CTDRNet имеет более высокую скорость сходимости и точность обнаружения; (iii) Постобработка CTDRNet повышает точность обнаружения и распознавания. Обнаружение текста на основе символов обнаруживает символы один за другим, прежде чем объединить их в слово, что имеет низкую точность обнаружения. Существующие методы распознавания текста можно разделить на методы на основе CTC и механизмы внимания.

WorkFlow CTDRNet показан ниже,

Обзор последних достижений и доминирующих тенденций показан ниже.

G. Модель трансформатора

Модель трансформеров способна решить проблему преобразования последовательности, нейронного машинного перевода или многие другие задачи НЛП . Это означает любую задачу, которая преобразует входную последовательность в выходную последовательность. Это включает в себя распознавание речи, преобразование текста в речь и т. Д. Архитектура преобразователя обучается как языковая модель в большом корпусе, а затем настраивается для индивидуальной классификации текста и задач подобия. Несколько предложений объединяются в одну последовательность с использованием разделителей для работы с одной и той же моделью. На рисунке ниже показана архитектура трансформатора и входное преобразование тонкой настройки различных задач.

Модель Transformer разделяет проблему на две подзадачи и, следовательно, имеет два модуля, которые решают эти подзадачи: модуль извлечения признаков и модуль преобразователя. Здесь сверточные карты функций, так как вложения слов используются в качестве входных данных для преобразователя, и, таким образом, метод использует потенциал мощного механизма внимания преобразователей. Возьмем такой пример, как «Я прибыл на берег после перехода через реку», чтобы определить, что слово «берег» относится к берегу реки, а не к финансовому учреждению, Трансформатор может сразу научиться обращать внимание на слово «река» и примите это решение за один шаг.

Общая архитектура Transformer следует с использованием многослойного самовнимания и точечных, полностью подключенных уровней как для кодировщика, так и для декодера, как показано ниже.

На основе этой архитектуры был представлен Transformer, в котором использовалась техника самовнимания вместо использования рекуррентной нейронной сети в кодировщике и декодере. Трансформаторный энкодер, состоящий из самовнимающих головок и полностью связанных нейронных сетей. Этот кодировщик изменяет представление каждого токена в соответствии с содержимым других токенов и представляет новое представление. Каждая голова с самовниманием обнаруживает новую семантическую связь между различными токенами и преобразует ее в новый вектор, аналогичный входным векторам, используя полностью связанную нейронную сеть. Языковая модель BERT (представления двунаправленного кодировщика от преобразователей), в которой для реализации языковой модели используется компонент кодировщика-преобразователя.

Представления двунаправленного кодера от трансформаторов (BERT)

Двунаправленные представления кодировщика от трансформаторов (BERT) - это метод предварительного обучения НЛП, разработанный Google. BERT предназначен для предварительного обучения глубоких двунаправленных представлений из немаркированного текста путем совместной обработки левого и правого контекстов на всех уровнях. В результате предварительно обученная модель BERT может быть настроена всего с одним дополнительным выходным слоем для создания современных моделей для широкого круга задач, таких как ответы на вопросы и логический вывод, без существенной специфической архитектуры. модификации. Изучая опыт предобученных моделей ELMO (встраивания из языковых моделей) и GPT (генеративное предварительное обучение), BERT использовал двунаправленное обучение Transformer для языковой модели. Использование BERT для конкретной задачи очень просто, мы можем сначала загрузить предварительно обученную модель BERT Google, а затем использовать метод тонкой настройки, чтобы обновить предварительно обученную модель, чтобы она соответствовала необходимой последующей задаче, BERT - это специальный метод обучения преобразованию для НЛП.

Чтобы модель могла различать два предложения при обучении, входные данные перед вводом в модель обрабатываются следующим образом:

я. В начале первого предложения вставляется токен, а в конце каждого предложения вставляется другой токен.

II. Вложение предложения, указывающее на предложение A или предложение B, добавляется к каждому токену. Вложения предложений аналогичны по концепции вложениям лексем со словарем 2.

iii. Позиционное вложение добавляется к каждому токену, чтобы указать его положение в последовательности. Концепция и реализация позиционного встраивания представлены в статье Transformer.

Мы можем видеть шаги на рисунке ниже,

В моделях для конкретных задач BERT - это многослойный двунаправленный преобразователь кодировщика, который поставляется в двух вариантах: BERTBASE и больший BERTLARGE. Существует четыре основных типа моделей BERT для конкретных задач, т. Е. Задача классификации пар предложений, ii. Задача классификации одного предложения, iii. Вопросно-ответное задание, iv. Задача пометки одним предложением

Все типы моделей BERT для конкретных задач показаны ниже.

В Word Character BERT слово или символ сопоставляется с непрерывным векторным представлением (встраиванием), которое захватывает контекст слова и символа соответственно. В то время как модели на основе слов нуждаются в точной сегментации на уровне маркеров, модели на уровне символов имеют возможность выполнять точную маркировку маркеров или символьных единиц без необходимости предварительной сегментации слов.

Архитектура моделей представления слова, символа и уровня BERT показана ниже.

Наконец, в задаче предварительной обработки данных мы сначала применяем оптическое распознавание символов (OCR), чтобы преобразовать документы в текстовое представление с дополнительной целью как можно лучше сохранить исходный макет документа. Словарь символов ограничен буквенно-цифровыми символами и некоторыми специальными символами.

Тип BERT

RoBERTa: надежно оптимизированный BERT

В репликационном исследовании предварительного обучения BERT, которое включает в себя тщательную оценку эффектов настройки гиперпараметров и размера обучающей выборки. В этом случае BERT был значительно недооценен и предлагал улучшенный рецепт для обучения моделей BERT, который называется RoBERTa, который может соответствовать или превосходить производительность всех методов post-BERT.

DistilBERT: дистиллированная версия BERT.

DistilBERT - имеет ту же общую архитектуру, что и BERT. В этом BERT вложения типа токена и пулер удаляются, а количество слоев сокращается в 2 раза. Это меньшая модель представления предварительного обучения языка общего назначения, которая затем может быть точно настроена с хорошими характеристиками на широкий спектр задач, как и его более крупные аналоги.

CamemBERT: вкусная французская языковая модель

CamemBERT отличается от RoBERTa главным образом добавлением маскировки всего слова и использованием токенизации фрагмента предложения. Архитектура Подобно RoBERTa и BERT, CamemBERT представляет собой многослойный двунаправленный преобразователь. Французская версия двунаправленных энкодеров для трансформаторов (BERT). Мы измеряем производительность CamemBERT по сравнению с многоязычными моделями в нескольких последующих задачах, а именно в тегах части речи, синтаксическом анализе зависимостей, распознавании именованных сущностей и логическом выводе на естественном языке.

АЛЬБЕРТ: САМЫЙ БЕРТ

Конфигурация ALBERT, аналогичная BERT-large, имеет в 18 раз меньше параметров и может быть обучена примерно в 1,7 раза быстрее. ALBERT использует методы сокращения двух параметров, которые устраняют основные препятствия при масштабировании предварительно обученных моделей.

я. Факторизованная параметризация встраивания. Разложив матрицу вложения большого словаря на две маленькие матрицы, отделив размер скрытых слоев от размера вложения словаря. Такое разделение упрощает увеличение скрытого размера без значительного увеличения размера параметра встраивания словаря.

II. Межуровневое разделение параметров. Этот метод предотвращает рост параметра с увеличением глубины сети.

Оба метода значительно сокращают количество параметров для BERT без серьезного снижения производительности, тем самым повышая эффективность параметров. Методы уменьшения параметров также действуют как форма регуляризации, которая стабилизирует тренировку и помогает в обобщении.

Многоязычный BERT

Многоязычный BERT (mBERT) обеспечивает представление предложений для 104 языков, которые полезны для многих многоязычных задач. MBERT состоит из компонента, зависящего от языка, который определяет язык предложения, и компонента, не зависящего от языка, который фиксирует значение предложения независимым от языка способом. Представления mBERT можно разделить на компонент, зависящий от языка, и компонент, не зависящий от языка. Языковые центроиды представлений с объединенным средним значением следующие:

FlauBERT: неконтролируемая языковая модель

FlauBERT, модель, изученная на очень большом и неоднородном французском корпусе. Если мы применим модели французского языка к различным задачам НЛП (классификация текста, перефразирование, вывод естественного языка, синтаксический анализ, устранение неоднозначности смысла слов) и покажем, что в большинстве случаев они превосходят другие подходы до обучения. Различные версии FlauBERT, а также унифицированный протокол оценки для последующих задач, называемый FLUE (оценка понимания французского языка), передаются исследовательскому сообществу для дальнейших воспроизводимых экспериментов во французском НЛП.

I. BART: автоэнкодер с шумоподавлением для предварительного обучения моделей от последовательности к последовательности

Исследователи искусственного интеллекта Facebook продолжили разработку модели BART с введением mBART, который, по их словам, является первым методом предварительного обучения полной модели от последовательности к последовательности путем удаления шума из полных текстов на нескольких языках для целей машинного перевода.

Модель BART с 12 слоями кодировщика и 12 слоями декодера была предварительно обучена на разных наборах языков. Окончательные модели получили название mBARTNum, в котором «Num» представляет количество языков, используемых для обучения; и Random, которая представляет собой базовую модель, инициализированную случайным образом без предварительного обучения.

Архитектура mBART с тонкой настройкой машинного перевода показана ниже.

BART - это автоэнкодер с шумоподавлением для предварительного обучения моделей от последовательности к последовательности. Он обучается (i) искажением текста с помощью произвольной шумовой функции и (ii) обучением модели для восстановления исходного текста. Он использует стандартную архитектуру нейронного машинного перевода на основе Transformer, которая, несмотря на ее простоту, может рассматриваться как обобщающий BERT (из-за двунаправленного кодировщика), GPT (с декодером слева направо) и многие другие более свежие схемы предварительного обучения. . BART особенно эффективен при тонкой настройке для генерации текста, но также хорошо работает для задач понимания. BART тонкой настройки для классификации и перевода показан ниже.

I. Генеративные состязательные сети

Генеративные состязательные сети (GAN) - это алгоритмические архитектуры, которые используют две нейронные сети, противопоставляя одну другую (таким образом, «состязательную»), чтобы генерировать новые синтетические экземпляры данных, которые могут передаваться за реальные данные. Они широко используются при создании изображений, видео и голоса.

GAN также не очень полезны в задачах распознавания. Их можно использовать для генерации обучающих данных, но не в основном конвейере, но мы можем повысить точность распознавания текста с помощью сверхвысокого разрешения. Точность OCR часто снижается из-за низкого качества изображений входного документа. Как правило, это снижение производительности связано с разрешением и качеством сканирования. Это требует особых усилий для улучшения качества изображений документов перед их передачей в механизм OCR. Один из интересных вариантов - сверхразрешение этих изображений документов с низким разрешением перед их передачей в механизм OCR.

GAN использует состязательное обучение, что по сути означает столкновение двух нейронных сетей друг с другом. Один из них является генератором, а другой - дискриминатором, причем первый нацелен на получение данных, неотличимых от реальных данных, а второй пытается различать реальные и поддельные данные.

CycleGAN показал себя в сценариях, где имеется нехватка парного набора данных, то есть изображения в исходном домене и соответствующего изображения в целевом домене. CycleGAN использует потерю согласованности цикла, которая гласит, что если изображение преобразуется из исходного распределения в целевое распределение и обратно в исходное распределение, тогда мы должны получить образцы из исходного распределения. Рисунок ниже относится к CycleGAN - он состоит из двух генераторов, GA и GB, которые сопоставляют зашумленные изображения с чистыми изображениями и чистые с зашумленными изображениями, соответственно, с использованием потери согласованности цикла.

GAN для локализации таблиц

Таблица содержит важную информацию в документе, но не всегда имеет структурированный формат. Для поиска области границы таблицы в изображении документа и сегментации таблицы сосредоточиться на анализе таблицы путем нахождения ее строк и столбцов для извлечения структуры таблицы, мы используем архитектуру глубокой нейронной сети. Архитектуры на основе условных GAN и сверточных нейронных сетей (CNN) очень полезны для локализации таблицы и сегментации ее структуры.

Общий подход к извлечению таблицы из изображения с использованием GAN, как показано ниже,

Локализация и сегментация таблиц - важный, но важный шаг в анализе изображения документа. Сегментация таблиц намного сложнее, чем локализация таблиц, особенно в документе счета-фактуры, потому что иногда в счете-фактуре есть вложенные строки или вложенные столбцы или даже вложенные таблицы. Синтез изображений с высоким разрешением и семантическая обработка с использованием условной архитектуры на основе GAN, известной как pix2pixHD. Pix2pixHD изначально обучался с помощью глобального и локального генератора для получения изображения с высоким разрешением. На рисунке ниже показан пример правильной локализации области таблицы с использованием архитектуры pix2pixHD.

Пример прогнозируемых выходных данных для локализации таблицы Пример из обученной модели с архитектурой pix2pixHD показан ниже.

Ссылочный код этого проекта:



J. Автоматизация выставления счетов

Введение

В процессе автоматизации счетов-фактур, когда программное обеспечение для автоматизации сканирует счет, а затем преобразует его в изображения или документы с возможностью поиска по тексту. В этой автоматизации процесса другой диапазон в счете-фактуре также может быть определен в программном обеспечении, чтобы оно запомнило, из какого диапазона оно должно собирать и регистрировать данные в системах планирования ресурсов предприятия (ERP). Основные операции в автоматизации счетов: (i) импорт изображений посредством сканирования или электронной почты, (ii) идентификация поставщика и бизнес-подразделения, связанного со счетом, (iii) извлечение данных, (iv) экспорт извлеченных данных и изображений

Требования RPA для автоматизации выставления счетов

Вы можете получать от своих поставщиков сотни и тысячи счетов-фактур для дальнейшей обработки. Ваш бухгалтерский отдел вручную проверяет каждую информацию о счете в системах бухгалтерского учета и требует оплаты. Эффективность этого процесса зависит от количества часов, которые ваша команда проводит в день, и это ограничено. Любые ошибки или задержки в обработке счетов-фактур могут вызвать раздражение у вашего поставщика. Они либо задержат доставку следующего набора товаров / услуг, либо вообще покинут вас, а также этот процесс может занять время и может быть автоматизирован для более быстрой и эффективной обработки. РПА установило обработку счетов. Эти задачи, которые раньше занимали больше времени и ресурсов, теперь можно автоматизировать, чтобы выполнять их быстрее, стабильнее и доступнее.

Обработка счетов с помощью UiPath

Программные роботы RPA могут автоматизировать ввод данных, согласование ошибок и принятие некоторых решений, необходимых финансовому персоналу при обработке счетов. В то же время автоматизация может ограничить количество ошибок в таких процессах и уменьшить необходимость ручной обработки исключений.

Шаги, по которым платформа UiPath Enterprise RPA может быть использована для сквозного перемещения счета-фактуры от получения к оплате за считанные минуты:

я. Получение счета: на этом этапе программные роботы UiPath RPA могут постоянно отслеживать специальную папку, в которой сотрудники (или другие программные роботы) сохраняют счета в формате PDF. Как только роботы обнаруживают наличие счета в папке, они начинают извлекать информацию из документа.

ii. Извлечение и передача информации: На этом этапе, используя возможности интеллектуального оптического распознавания символов (OCR) и обработки естественного языка (NLP), программные роботы могут считывать информацию, отображаемую в счете. После того, как роботы извлекают ключевую информацию из каждого счета-фактуры, они используют свои учетные данные для открытия базы данных компании или системы планирования ресурсов предприятия, если она еще не открыта. Затем роботы начинают обрабатывать счета один за другим, передавая соответствующую информацию счета.

iii. Уведомление по электронной почте: На этом этапе после успешной регистрации каждого счета программные роботы могут отправлять уведомления о размещении в форме электронных писем ответственному сотруднику или соответствующему поставщику. В случае исключения ответственной стороне также отправляется электронное письмо.

iv. Другие фоновые действия: На последнем этапе, в течение всего этого процесса, программные роботы также выполняют фоновые действия, такие как мониторинг выделенной папки счетов или ее адреса электронной почты, выполнение основных проверок, чтобы увидеть, открыта ли база данных компании, и проверка того, соответствует ли информация поставщика (например, номер плательщика НДС) в счете-фактуре тому, что уже есть в базе данных.

Преимущества использования RPA в автоматизации счетов: i. Уменьшает человеческую ошибку, ii. Экономьте деньги, избегая просроченных платежей, iii. Сократить несущественные затраты, iv. Повышенное внимание к деятельности с более высокой добавленной стоимостью, iv. Организуйте обработку счетов с помощью ERP и т. Д.

Обработка счетов с помощью инструмента UiPath RPA

Программные роботы UiPath могут постоянно отслеживать специальную папку, в которой счета сохраняются в формате PDF. Как только робот обнаруживает наличие счета в папке, он начинает извлекать информацию из этого документа. UiPath использует в основном три технологии OCR, т.е. Microsoft OCR, ii. Google OCR, iii. Эбби OCR

UiPath также может интегрироваться с нашими приложениями глубокого обучения через API-интерфейсы, так что DL может легко стать частью рабочего процесса. Используя этот интеллектуальный алгоритм и возможности обработки естественного языка, мы сможем читать информативные данные, отображаемые в счете. Как только счет получен роботами, он может читать и находить определенные данные из счета. Данные, которые собирает робот, можно изменить и настроить в соответствии с предпочтениями вариантов использования.

Рабочий процесс RPA показан ниже,

Окончательные результаты:

Резюме

Таким образом, мы выполнили автоматизацию процесса выставления счетов с использованием алгоритмов глубокого обучения, таких как Recurrent Connectionist Text Proposal Network, двунаправленные представления кодировщика от трансформаторов (BERT), Transformer Model, Generative Adversarial Networks для распознавания текста, сегментации таблиц и локализации с помощью автоматизации процессов Robotics. Мы обсудили множество сценариев, с помощью которых мы можем обнаруживать и извлекать значимую информацию из данных счета. Мы также обсудили проверку OCR для улучшения обнаружения текста.

Спасибо, что прочитали мой блог.

использованная литература

[1]: https://machinelearningmastery.com/how-does-attention-work-in-encoder-decoder-recurrent-neural-networks/

[2]: Подход глубокого обучения для распознавания чеков

[3]: Локализация и сегментация таблиц с использованием GAN и CNN

[4]: Извлечение таблиц из документов с использованием условных генеративных состязательных сетей и генетических алгоритмов

[5]: Учимся чистить: взгляд на GAN

[6]: Трансферное обучение для распознавания именных сущностей в финансовых и биомедицинских документах

[7]: Современное состояние в действии: обнаружение неограниченного текста

[8]: Глубокое обучение для обнаружения общих объектов: обзор

[9]: Fast R-CNN

[10]: Богатые иерархии функций для точного обнаружения объектов и семантической сегментации. Технический отчет (v5)

[11]: РЕГИОНАЛЬНАЯ СЕТЬ ПРЕДЛОЖЕНИЙ НА ОСНОВЕ KL-РАЗНООБРАЗИЯ ДЛЯ ОБНАРУЖЕНИЯ ОБЪЕКТОВ

[12]: Эффективное распознавание текста без лексикона с использованием глубокого обучения

[13]: Сквозная обучаемая нейронная сеть для распознавания последовательностей на основе изображений и ее применение для распознавания текста сцены

[14]: Алгоритмы высокоточного оптического распознавания символов с использованием обучающего массива ИНС

[15]: https://learndifferences.org/data-information-and-knowledge-differences.php

[16]: https://learndifferences.org/data_mining.php