Благодаря достижениям в понимании естественного языка, диалоговые виртуальные агенты на базе искусственного интеллекта теперь могут с легкостью работать со сложными языками, такими как финский

Посмотрите любой список самых сложных языков в мире для изучения, и вы обязательно найдете финский язык где-нибудь в верхней части списка. Хотя письменная форма этого уникального скандинавского языка (в некоторой степени) похожа на английский, грамматически она выводит вещи на совершенно новый уровень.

Из-за смеси сложных слов и сложных спряжений выучить финский язык - нелегкая задача для любого человека, не являющегося носителем языка. Для искусственного интеллекта такое же трудоемкое декодирование требует ряда сложных процессов, чтобы виртуальный агент пришел к правильному ответу.

В boost.ai наш разговорный ИИ использует различные методы понимания естественного языка (некоторые общие, а другие собственные), чтобы понять множество вариантов, которые слова могут принимать в таком грамматически сложном языке, как финский. Ниже мы опишем некоторые шаги, которые проходят наши алгоритмы, чтобы сделать возможными языки, которые когда-то считались невозможными.

Стемминг

В финских словах огромное количество возможных спряжений. Для чего-то столь же простого (по крайней мере, на английском языке), как слова «автомобиль», «страхование» и «счет-фактура», на финском языке есть множество альтернатив. Вот несколько примеров":

Чтобы проанализировать такое большое количество возможностей, разговорный ИИ проходит через процесс, называемый «выделение корней», который, по сути, сокращает спряженное слово до его корневой формы, поэтому алгоритм не нужно обучать каждому варианту. Это проиллюстрировано выше словами, выделенными черным цветом.

Расщепление соединения

Еще одна распространенная проблема финского языка - это большое количество сложных слов. Вместо того, чтобы писать каждое слово по отдельности, часто бывает так, что несколько слов объединяются в одно более длинное слово. Ниже мы можем увидеть лишь некоторые из множества вариантов составных слов для «страхование автомобиля» и «страховой счет»:

Сложные слова распространены во многих европейских языках, таких как немецкий или норвежский, но сочетание их с таким большим количеством возможностей спряжения делает финский особенно трудным. Сначала вам нужно будет обучить алгоритм каждому отдельному слову со всеми его спряжениями, а затем перейти к соответствующим составным словам со всеми их различными спряжениями. В результате алгоритму требуется огромная работа, чтобы изучить каждую перестановку.

Чтобы решить эту проблему, разговорный ИИ может выполнять процесс, называемый составным разделением. Это позволяет алгоритму разбирать составные слова на составные части, так что ему нужны только базовые слова (в их базовой форме), чтобы точно интерпретировать вводимые пользователем данные.

Исправление орфографии

Еще одна важная часть головоломки - это способность разговорного ИИ выполнять расширенную коррекцию орфографии. Наше решение способно выявлять и исправлять ошибки в написании сложных составных слов, что значительно снижает вероятность ошибки.

Эта комбинация выделения корней, составного разбиения и исправления орфографии является частью нашей технологии, которая является ключом к снижению рабочей нагрузки, необходимой для взлома финского и других столь же сложных языков. Благодаря этим процессам нам нужно всего лишь скормить алгоритму восемь слов (вместо более 150!), Чтобы научить его понимать финские слова «автомобиль», «страхование», «счет-фактура», «страхование автомобиля». , «счет за страхование» и «счет за страхование автомобиля».

Автоматическое семантическое понимание

Упрощение языка до этого уровня позволяет нам наложить нашу запатентованную технологию автоматического семантического понимания (ASU) поверх для еще более глубокого уровня понимания. У ASU есть возможность перезарядить виртуальный агент до такой степени, что он может делать все, начиная с обработки нескольких намерений в одном запросе, понимания безумно сложных запросов, которые могут привести к сбою в меньших решениях, и даже устранения ложных срабатываний до 90% в некоторых случаях.

Людям всегда сложно выучить новый язык. Но для разговорного ИИ, как только вы справитесь с этими основными проблемами, даже самый сложный язык можно упростить, и его декодирование станет не сложнее, чем английский или норвежский.

Первоначально опубликовано на https://www.boost.ai 27 июня 2019 г.