Я ищу некоторые общие рекомендации здесь.
Вариант использования высокого уровня таков, что я получаю некоторые документы продукта, из которых мне нужно извлечь некоторую информацию и обработать ее. Прежде чем сделать это, мне нужно убедиться, что документ действительно относится к правильному продукту. Для этого мне нужно проверить заголовок/описание продукта из документа на соответствие тому, что я считаю правильным.
Итак, у меня есть 2 текста
- Текст 1 - это относится к информации о продукте, извлеченной из какого-либо документа.
- Текст 2 - это фактический заголовок/описание товара, имеющийся у меня, что можно считать правильным.
Мне нужно проверить, что оба текста относятся к одному и тому же продукту или объекту.
Пример:
Text 1 (to be validated) - Optimus Prime Costume, Blue, with good packaging and warranty
Text 2 (correct info) - Optimus Prime Blue Costume, Medium Size`
Видите ли, мне нужно подтвердить, что оба текста относятся к Optimus Prime Costume
.
Я пробовал следующие методы -
- Косинус сходства
- Сходство TF-IDF
- Перекрывающиеся слова между строками
Но проблема с ними в том, что они зависят от всего текста, а не от основного объекта, на который ссылается текст.
Я думал об обработке следующим образом: -
- Удалите цвета, информацию о размере и т.д. из текста 2. Текст 2 очень лаконичен и не содержит случайных данных. Он содержит название и размер продукта, информацию о цвете.
- Убедитесь, что оставшиеся элементы из текста 2 присутствуют в тексте 1 или, по крайней мере, большинство из них.
Я не совсем уверен, какие могут быть другие методы НЛП, которые были бы лучше, чем этот подход, поэтому любые предложения будут оценены.