Приятно написать! Поздравляем, вы так далеко зашли в разработке программного обеспечения.

Я впечатлен тем, что Intuit поручил этой сложной работе инженера. Как инженер, я ценю ту работу, которая требуется для этого. Большинство компаний предпочтут использовать офшорных людей в цикле / рабочей силе (Expensify и Bill.com с использованием CloudFactory), что подвергает PII клиентов из США риску социальной инженерии. Правила конфиденциальности данных CCPA 2020 повлияют на тех, кто использует оффшорную рабочую силу. Так хорошо там поработали. Снимаю шляпу перед руководством и инженерами Intuit за то, что они не следуют за толпой.

Теперь о технических деталях в вашей статье. Технические подробности говорят мне, что вы используете готовые подходы к НЛП, которые, к сожалению, не подходят для этого типа документов.

Например; вы используете BERT (предположительно), предварительно обученный на множестве обычных текстов (книги, интернет-дамп и т. д.). Он много знает обо всем, но очень мало о финансовых документах. Это означает, что вам нужно будет полагаться на правила, чтобы исправлять прогнозы, например, что составляет дату или почтовый индекс.

Вы сообщаете о высокой точности для каждого токена (~ 93% общей точности для всех классов токенов), но это немного вводит в заблуждение, поскольку поле часто состоит из нескольких слов.

Есть несколько других областей, включая использование вами CNN, но это, вероятно, лучше оставить для автономного чата ;-)