НЛП - Как определить, относятся ли 2 текста к одному и тому же объекту

Я ищу некоторые общие рекомендации здесь.

Вариант использования высокого уровня таков, что я получаю некоторые документы продукта, из которых мне нужно извлечь некоторую информацию и обработать ее. Прежде чем сделать это, мне нужно убедиться, что документ действительно относится к правильному продукту. Для этого мне нужно проверить заголовок/описание продукта из документа на соответствие тому, что я считаю правильным.

Итак, у меня есть 2 текста

Текст 1 - это относится к информации о продукте, извлеченной из какого-либо документа.
Текст 2 - это фактический заголовок/описание товара, имеющийся у меня, что можно считать правильным.

Мне нужно проверить, что оба текста относятся к одному и тому же продукту или объекту.

Пример:

Text 1 (to be validated) - Optimus Prime Costume, Blue, with good packaging and warranty
Text 2 (correct info) - Optimus Prime Blue Costume, Medium Size`

Видите ли, мне нужно подтвердить, что оба текста относятся к Optimus Prime Costume.

Я пробовал следующие методы -

Косинус сходства
Сходство TF-IDF
Перекрывающиеся слова между строками

Но проблема с ними в том, что они зависят от всего текста, а не от основного объекта, на который ссылается текст.

Я думал об обработке следующим образом: -

Удалите цвета, информацию о размере и т.д. из текста 2. Текст 2 очень лаконичен и не содержит случайных данных. Он содержит название и размер продукта, информацию о цвете.
Убедитесь, что оставшиеся элементы из текста 2 присутствуют в тексте 1 или, по крайней мере, большинство из них.

Я не совсем уверен, какие могут быть другие методы НЛП, которые были бы лучше, чем этот подход, поэтому любые предложения будут оценены.

AgentX 16.11.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

В зависимости от вашей цели это может быть средне или очень сложно.

Есть несколько вещей, которые вы можете использовать:

NER определенно будет полезен:

Wikifier тоже может быть полезен: http://cogcomp.org/page/demo_view/Wikifier

А также Semantic-Role-Labeling. Дополнительные аннотации см. здесь: http://nlp.cogcomp.org/

Трудно судить по одному единственному примеру, каков точный алгоритм, но если у вас есть больше примеров, может быть проще придумать лучшую формализацию.

Расширение этого можно найти в том, что использовалось в этой работе. .

Daniel 17.11.2017

comment

Ваша последняя ссылка не работает. Вы можете перепроверить это? - AgentX; 17.11.2017

comment

Должно быть исправлено сейчас. - Daniel; 22.11.2017

НЛП - Как определить, относятся ли 2 текста к одному и тому же объекту

Ответы (1)

Вопросы по теме