Распознавание именованных сущностей: извлечение именованных сущностей и их классификация по предопределенным категориям, таким как местоположение, организация, имя человека и т. д. Именованная сущность - это любой реальный словесный объект, обозначенный собственным именем. Это помогает распознавать сущности в документе, которые более информативны и объясняют контекст.

Пример: Майкл Джордан из Chicago Bulls в 2019 году получит 10-часовой документальный фильм Netflix.

Именованные объекты

Имя: Майкл Джордан, Chicago Bulls

Подходы к NER

1.Ручные правила NER: основаны на извлечении именованного объекта с использованием созданных человеком правил. Эти правила основаны на грамматических, синтаксических или орфографических особенностях текста.

Пример: Майкл Джордан из Chicago Bulls в 2019 году получит 10-часовой документальный фильм Netflix.

POS-теги: ('Michael', 'NNP'), ('Jordan', 'NNP'), ('of', 'IN'), ('the ',' DT '), (' Чикаго ',' NNP '), (' Bulls ',' NNP '), (' is ',' VBZ '), (' получение ',' VBG '), (' a ',' DT '), (' 10 -hour ',' JJ '), (' Netflix ',' NNP '), (' документальный ',' NN '), (' in ',' IN '), ( '2019', 'CD')

Правило на основе рук: NNP (имя собственное) и начинается с заглавной буквы.

Именованные объекты, извлеченные с помощью ручного правила: Майкл, Джордан, Чикаго, Bulls, Netflix.

2. Система NER на основе машинного обучения: преобразует распознавание именованных сущностей в проблему классификации.

Для этого требуется аннотированный набор обучающих данных для создания вектора признаков для каждого слова, которое модель должна выучить.

Для выполнения NER на основе машинного обучения использовалось множество различных классификаторов с предпочтительным выбором условных случайных полей (CRF).

Использование предварительно обученной модели: они доступны в Интернете и обучаются на большом корпусе текста.

я. SpaCy: обученная модель в корпусе OntoNotes 5.

Пример: Майкл Джордан из Chicago Bulls в 2019 году получит 10-часовой документальный фильм Netflix.

Spacy Output: ('Майкл Джордан', 'ЛИЦО'), ('Чикаго Буллз', 'ОРГ'), ('Netflix', 'ЛИЦО'), ('2019', 'ДАТА')

ii. Stanford NER: это Java-реализация распознавателя именованных сущностей.
Программное обеспечение обеспечивает общую реализацию моделей последовательностей условных случайных полей (CRF) с линейной цепочкой (произвольного порядка).

Пример: Майкл Джордан из Chicago Bulls в 2019 году получит 10-часовой документальный фильм Netflix.

Выходные данные Stanford NER:

Тип: PERSON, Значение: Michael Тип: PERSON, Значение: Jordan Тип: ORGANIZATION, Значение: Chicago Тип: ORGANIZATION, Значение: Bulls Тип: ORGANIZATION, Значение: Netflix Тип: DATE, Значение: 2019

Ссылки:

  1. Https://towardsdatascience.com/ named-entity-recognition-applications-and-use-cases-acdbf57d595e
  2. Https://www.kdnuggets.com/2018/08/ named-entity-recognition-practitioners-guide-nlp-4.html
  3. Https://www.codementor.io/bofinbabu/introduction-to- named-entity-recognition-ner-k584v86r6
  4. Https://towardsdatascience.com/ named-entity-recognition-applications-and-use-cases-acdbf57d595e
  5. Https://prateekvjoshi.com/2013/02/23/what-are-conditional-random-fields/
  6. Https://medium.com/ml2vec/overview-of-conditional-random-fields-68a2a20fa541
  7. Https://medium.com/explore-artificial-intelligence/introduction-to- named-entity-recognition-eda8c97c2db1
  8. Https://towardsdatascience.com/ named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da