Взаимодействие между людьми и машинами — на всех уровнях — будет иметь решающее значение для будущей конфигурации нашего общества и экономики. Эта тема очень важна для нас, и в этой статье будет представлен обзор NLP, технологии, тесно связанной с нашей работой в Aptus.AI.

Задача машинного обучения: будьте человечнее… чтобы лучше учиться

Общеизвестно, что системы НЛП постоянно совершенствуются в последние несколько лет, но причина такой эволюции не столь известна. Нам нужно будет начать с истоков обработки естественного языка и взглянуть на лингвистический мир, чтобы объяснить эту тенденцию. Первые технологии машинного обучения были разработаны для обучения на конкретных задачах, поэтому приходилось каждый раз начинать с нуля. Таким образом, машины фактически не могли выучить язык, а только обучались выполнению этой конкретной задачи с еще большей точностью. В любом случае, это не тот способ, которым люди изучают языки. На самом деле дети учатся, знакомясь с определенным языком. Благодаря этому лингвистическому представлению люди учатся составлять предложения, демонстрируя свои приобретенные знания о структуре языка, а также о значении и контексте слов. И именно имитируя этот человеческий способ обучения, новейшие системы НЛП способны предсказывать следующее слово в предложении, создавая нечто, называемое языком модели.

Эволюция и современное состояние обработки естественного языка

Если говорить строго в лингвистических терминах, эти теории появились уже в конце 50-х годов 900-х годов, с так называемой гипотезой дистрибутивной семантикиJR. Ферт, по мнению которого — цитируя слова профессора Алессандро ЛенчиСтепень семантического сходства между двумя языковыми выражениями А и В является функцией сходства языковых контекстов, в которых А и может появиться Б. Спустя много лет и технический прогресс были преодолены ограничения, мешавшие применить эту теорию также к вычислительным машинам машинам. На основе дистрибутивной гипотезы были созданы первые пре-нейронные модели: Bag of Words (BoW), TF-IDF, Latent Semantic Analysis (LSA). Затем, с 2013 года, появились нейронные модели, такие как Word2Vec, до выпуска BERT (2018) — более сложного и эффективного — и всех преобразователей. strong> моделей (которые мы обсуждаем в этом посте). В настоящее время системы НЛП не начинают с нуля для любой новой задачи, а используют языковую модель, к которой новые задачи только добавляются. Не углубляясь в эту тему (по крайней мере, в этом посте), тот же принцип используется также и для изображений. Вот почему интересная статья Facebook AI вводит выражение темная материя разума, относящееся к воспроизведению этой динамики человеческого обучения — довольно близкое к здравому смыслу concept — , которые представляют наиболее сложный аспект машинного обучения. Очевидно, что чем больше нейронных сетей, используемых для имитации человеческого способа обучения, тем выше будут способности машин к обучению. Также очевидно, что для этого требуются все более и более мощные машины, но путь ясен. Как доказывает статья The Guardian, полностью написанная ботом, использующим модель GPT-3.

Задача Aptus.AI: интегрировать NLP и Document AI

Однако описанные выше системы имеют очевидные ограничения. Например, они способны работать только с документами, имеющими четкое начало и конец, не слишком длинными и слишком сложными с точки зрения внутренней структуры. Конкретно, файл PDF, который не может быть прочитан машиной, или слишком сложный документ будут непригодны для использования машинами. Кроме того, системы NPL не способны учитывать структуру документа, так как работают только с обычным текстом.

Зная об этом, мы в Aptus.AIразработали системы, объединяющие NLP и Document AI (о которых мы представляем в новом посте в блоге). Использование этих двух технологий интегрировано, заставляя их взаимодействовать друг с другом, позволяет им дополнять друг друга. Так мы создали Daitomic, наше решение на основе искусственного интеллекта, созданное для управления соблюдением банковских требований.

Первоначально опубликовано на https://www.aptus.ai.