Познакомьтесь с ландшафтом обработки естественного языка! Начните свое путешествие по НЛП с этой Периодической таблицы из 80+ задач НЛП.

Русский химик Дмитрий Менделеев опубликовал первую Периодическую таблицу в 1869 году. Пришло время организовать задачи НЛП в стиле Периодической таблицы!

Варианты и структура задач НЛП бесконечны. Тем не менее, вы можете подумать о создании конвейеров НЛП на основе стандартных задач НЛП и разделении их на группы. Но что влекут за собой эти задачи?

Объясняется более 80 часто используемых задач НЛП!

Группа 14: Системы НЛП

69. Извлечение отношений.

Извлечение отношений - это задача извлечения семантических отношений из текста. Отношение можно определить как связь между сущностями. Есть разные способы извлечения отношений:

  • Простой вывод: используйте наличие двух сущностей в одном предложении (или абзаце) в качестве безымянного отношения.
  • Логика предикатов: используйте теги Dependency для определения запросов семантических отношений, например (субъект, глагол, объект), где глагол определяет отношение.
  • Паттерны Херста: используйте POS-теги для извлечения паттернов Херста, которые представляют собой иерархические отношения, основанные на семантической информации. Паттерны Херста используются для извлечения гиперонимных отношений. Гипоним (например, Шекспир) находится в типичных отношениях со своим гиперонимом (например, автором). Это важно для извлечения кортежей для онтологий.

  • Сходство Word2vec: используйте векторные вычисления для определения отношений, как в Gensim:
import gensim
model = gensim.models.Word2Vec.load('model-01')
model.most_similar(positive=['father', 'son'], negative=['mother'])
>>> [('daughter', 0.8783684968948364)]
  • Ответ на вопрос и заполнение слота: задайте вопрос в определенном шаблоне отношений и используйте ответ, чтобы заполнить слот.
Template: husband_of = ”Who is the husband of [PERSON]?”
Question: ”Who is the husband of Michelle?”
Answer  : ”Barack”
Relation: Barack --> husband_of --> Michelle
  • Преобразователь для извлечения отношения: используйте deeplearning для извлечения отношения. TACRED с 106 тысячами примеров на уровне предложений и 41 типом отношений и DocRED с 107 тысячами примеров на уровне документов и 96 типами отношений - хорошие наборы данных для извлечения отношений для обучения моделей.

70. Ответ на вопрос

Ответ на вопрос - это задача автоматического ответа на вопросы, заданные людьми на естественном языке. Существуют различные настройки для ответа на вопрос, такие как абстрактивный, экстрактивный, логический и множественный выбор QA.

Цель Extractive QA - извлечь подстроку из справочного текста. Целью абстрактивного QA является создание ответа на основе справочного текста, но он может не быть подстрокой справочного текста. Логические вопросы - это ответы типа "да-нет". У вопросов с несколькими вариантами ответов есть несколько вариантов на выбор.

Вариантом обычного вопроса-ответа является многоэтапный ответ на вопрос, который требует, чтобы модель собирала информацию из разных частей текста, чтобы ответить на вопрос.

Особенностью системы контроля качества является возможность не отвечать на вопрос или отвечать idk (я не знаю). Пример - SQuaD. Набор данных обучения SQuaD 1.0 QA был создан в виде справочных текстов с вопросами, на которые всегда давали ответы. Улучшенный набор данных SQuaD 2.0 был дополнен вопросами, на которые невозможно было ответить.

Как показано, разные исследователи рассматривают разные форматы как отдельные проблемы. Но AllenAI создал UnifiedQA, модель T5 (Text-to-Text Transfer Transformer), обученную на всех типах QA-форматов. Вы можете попробовать их демо.

Другой вариант, когда нет справочного текста, отвечающего за вопрос. Требуемые знания должны исходить из самой модели. Знания хранятся в параметрах модели, которые были получены во время предварительного обучения без учителя. Вы можете попробовать эту демонстрацию.

71. Диалог с чат-ботом

2016 год стал годом ажиотажа вокруг чат-ботов. Общение с вашим брендом через виртуальных помощников было (есть) будущим. Задача состоит в том, чтобы запрограммировать естественный и убедительный диалог чат-бота для персон ваших клиентов. Вы должны удовлетворять потребности клиентов и отвечать на их неформальный язык и смайлики.

Некоторые системы для работы:

  • Dialogflow - это пакет разработки Google для создания диалоговых приложений AI.
  • Wit.ai - это компания Facebook, и ее можно использовать бесплатно (ваши данные будут переданы в Wit для открытых приложений).
  • Rasa - это пакет с открытым исходным кодом для создания контекстных помощников. Вы можете попробовать обучить маленького чат-бота в Раса-площадка.

72. Индексирование семантического поиска.

Поисковые системы стали известны своим поиском информации на основе ключевых слов. Добавление семантической информации о фрагменте текста может повысить точность поиска. Добавление не только текста, но и его вектора позволит выполнять поиск по намерению и семантическому значению поисковых запросов в дополнение к поиску по ключевым словам.

NMSLIB (неметрическая космическая библиотека) - это библиотека быстрого поиска подобия, которая может находить объекты с минимальным (косинусным) расстоянием до других объектов. При обработке вопроса вы вычисляете его вектор, а затем находите ближайший вектор встраивания из индекса NMSLIB. Вычисление векторов может быть выполнено, например, с помощью универсального кодировщика предложений. NMSLIB стал частью Amazon Elasticsearch Service.

73. Население из базы знаний

Базы знаний (также известные как графы знаний или онтологии) являются ценными ресурсами для разработки интеллектуальных приложений, включая системы поиска, ответов на вопросы и рекомендаций. Целью популяции базы знаний является обнаружение фактов о сущностях (NER, NEL) и построение на их основе базы знаний.

Часто в дополнение к базе знаний имеется механизм вывода. Вместе их можно рассматривать как экспертную систему. База знаний представляет факты и правила. Механизм вывода применяет правила или модель ИИ к известным фактам, чтобы вывести новые факты.

74. Электронное обнаружение и мониторинг СМИ.

Electronic Discovery и (Social) Media Monitoring - задачи для проведения крупномасштабного анализа контента.

Electronic Discovery - это задача по выявлению, сбору и производству информации, хранящейся в электронном виде (ESI), в рамках (юридических) расследований. Важными аспектами являются производительность системы в отношении объема, комбинирование текстовых данных с метаданными, сохранение и связывание исходного документа и поддержание вашего анализа в актуальном состоянии с учетом последних документов.

(Социальный) Мониторинг СМИ - это задача анализа социальных сетей, новостных СМИ или любого другого контента, такого как сообщения, блоги, статьи, технические документы, комментарии и разговоры. Его можно использовать для улучшения (социального) маркетинга, слушания и взаимодействия.

Цель состоит в том, чтобы понять голос клиента, который может быть в любой обстановке, например, клиент вашего бренда, или пользователь вашего форума, или ваш подписчик и т. Д. Это достигается путем повторения цикла прослушивания - пойми - займись. Слушание - это та часть, где интерпретируются такие показатели, как тон, эмоции, темы, отношение к бренду. Анализ текста на информативные показатели может быть более интересным, чем просто подсчет количества подписчиков, лайков, репостов, посетителей и рекомендаций.

На практике вы часто видите анализ настроений в данных твиттера. Хотя аудит бренда и разговоров, а также интерпретация тем и закономерностей могут быть более интересными, они также более сложны.

Читайте следующую статью о Группе 15:



ОБ ЭТОМ ЗАПИСИ

Я постарался сделать Периодическую таблицу задач НЛП максимально полной. Поэтому его читают больше, чем отдельные статьи в блогах. Я разделил 80 статей на группы Периодической таблицы.

Остальные групповые статьи можно найти здесь!

Настройка и состав Периодической таблицы являются субъективными. Разделение задач и категорий можно было осуществить множеством других способов. Я ценю ваши отзывы и новые идеи в форме ниже. Я постарался дать четкое и краткое описание каждой задачи. Я опустил более подробные сведения, но по возможности предоставил ссылки на дополнительную информацию. Если у вас есть улучшения, вы можете отправить добавить их ниже или связаться со мной в LinkedIn.

Пожалуйста, напишите мне, если у вас есть дополнения!

Скачайте Периодическую таблицу задач НЛП здесь!

Создайте здесь свою собственную таблицу Менделеева!

ОБО МНЕ

Основатель @ innerdoc.com | Эксперт-инженер-энтузиаст НЛП | Пишет о том, как получить значение из текстовых данных | Живет в Нидерландах

Не стесняйтесь связываться со мной в LinkedIn, Twitter.com/innerdoc_nlp или подписывайтесь на меня здесь, на Medium.