Создание умных систем базы знаний (KBS) с использованием расширенной библиотеки NLP

Предприятия, учреждения или любые крупные организации накопили свои знания за несколько лет своего существования, записав их в виде книг, журналов / статей, документов и т. Д. Постоянный доступ к этим знаниям для своих сотрудников, студентов, преподавателей / исследовательских сообществ необходим для устойчивого развития. операции. Рыночные инструменты KM (управления знаниями) в определенной степени помогают удовлетворить эту потребность, создавая своего рода репозиторий знаний и предоставляя к нему доступ. Инструменты KM требуют, чтобы документ был помечен тегами (вручную или автоматически), чтобы пользователи могли легко найти его. Хотя эти инструменты служат определенной цели, организации сталкиваются с новыми проблемами в цифровую эпоху -

Сбор контекстной и семантической информации в базе знаний
Возможность мгновенного доступа к информации.
Необходимость автоматизированной и устойчивой методологии для создания такой системы

Сценарий как есть

Решение для управления корпоративными знаниями может помочь доставить пользователю все необходимые документы на основе его запроса. Но это вряд ли удовлетворяет требования пользователя, потому что теперь, когда пользователь имеет (скажем) доступ к 10 документам, нужно их прочитать, чтобы получить информацию, которую он ищет. Это может оказаться утомительной и утомительной задачей для пользователей действующих проектов, исследовательского сообщества и т. Д., Поскольку это приводит к задержке в получении информации.

Будущий сценарий

В будущем сценарий доступа к информации из баз знаний может быть таким же тривиальным, как запрос у чат-бота за точной информацией, которая вам нужна. Например, «В скольких реализациях проектов использовалась определенная технология?» тип запроса вернется мгновенно с ответом. Хотя для большинства людей это может показаться слишком хорошим, чтобы быть правдой, технологические достижения в области глубокого обучения и обработки естественного языка сделали такое решение возможным. Более того, благодаря демократизации технологий искусственного интеллекта и здоровой экосистеме проектов с открытым исходным кодом в области искусственного интеллекта такое футуристическое решение теперь доступно как малым, так и крупным предприятиям.

Кто такой джин, стоящий за чат-ботом?

Что ж, очевидно, что за всем этим не стоит Джин. Но, образно говоря, я считаю, что орды ученых-исследователей, научно-исследовательские институты, которые неустанно вносят свой вклад в передовую работу в области машинного обучения и искусственного интеллекта для НЛП, являются джиннами, которые сделали это возможным, и мы все должны быть коллективно благодарны за их усилия. Вот как выходит решение.

Чат-бот интегрирован в огромную базу данных графов, которая фиксирует информацию о различных объектах, таких как человек, компания, местоположение, название технологии и т. Д. В качестве узлов, а также о взаимосвязях и ассоциациях между всеми объектами в качестве ребер. Например, в предложении «компания X использует технологию XYZ», «использует» - это отношение, которое существует между сущностями X и XYZ и сохраняется как граница. Кроме того, вся другая связанная информация об объектах и отношениях сохраняется как свойства узлов и ребер соответственно. Мы были мотивированы тем, как Google использует графы знаний для хранения и извлечения информации. По сути, это решение можно рассматривать как построение Google, подобного семантической поисковой машине, на совокупности знаний для мгновенного поиска.

Самая важная часть или суть решения - определить, какие сущности и каковы отношения между ними из естественного языка. Это обеспечивается библиотеками NLP, такими как spacy.io, которые позволяют разработчикам обучать настраиваемые модели анализатора NER (Named Entity Recognition) и зависимостей для любого текста на естественном языке. Результатом этих моделей являются четко идентифицированные сущности и их отношения, фиксирующие семантический контекст между сущностями и отношениями в документах. Эти семантические знания между объектами затем передаются в граф знаний.

После того, как описанный выше процесс превращается в конвейер, граф знаний может поглощать будущие добавления или перекрытия при обработке последующих документов. Если он распознает одну и ту же сущность, он будет повторно использовать ее и создавать новые сущности только тогда, когда она полностью нова для графа знаний. Таким образом, база знаний может быть расширена органически в будущем на устойчивой основе для всех последующих дополнений, сохраняя при этом связи с существующими знаниями.

Проблемы и другие соображения

Как и в случае с любой другой технологией, внедрение системы интеллектуальной базы знаний (KBS) имеет свой собственный набор проблем.

Управление изменениями - решение влечет за собой новый процесс оцифровки и обработки документов на предприятии, требующий активного участия малых и средних предприятий в организации, не говоря уже о том, что это также может потребовать создания новых ролей в организации.
Мусор на выходе - так гласит известная пословица. Поэтому обеспечение оцифровки документов и точного извлечения информации имеет первостепенное значение для успеха этой инициативы. Кроме того, маркировка сущностей и отношений должна выполняться точно.
Это решение может не понадобиться во всех организациях, где задержка при извлечении информации не является серьезным препятствием, поэтому вложение времени и ресурсов может оказаться нелогичным.
Команда по обработке и анализу данных. Очень важно иметь опытную команду по обработке и анализу данных, чтобы не обращать внимания на реализацию, даже если для этого потребуется нанять внешних экспертов.
Техническая инфраструктура. Решение потребует от разумных до значительных инвестиций в технологическую инфраструктуру как локально, так и в облаке. Если у вас уже есть постоянные отношения с любым из поставщиков облачных услуг, подготовка для выполнения этого требования будет беспроблемной.
Наконец, вовлекайте конечных пользователей в решение даже на этапе проектирования, чтобы стимулировать широкомасштабное внедрение и избежать любых несоответствующих ожиданий на более позднем этапе.

Понравилась моя статья? Пожалуйста, нажмите кнопку хлопков, чтобы помочь другим найти его, и, пожалуйста, ознакомьтесь с моими другими популярными сообщениями Раджкумара Калияперумала ниже

Я тоже опубликовал эту статью в Linkedin.

Создание умных систем базы знаний (KBS) с использованием расширенной библиотеки NLP

Сценарий как есть

Будущий сценарий

Кто такой джин, стоящий за чат-ботом?

Проблемы и другие соображения

Вопросы по теме