Как смайлы и хешаги влияют на точность текста Google Natural Language Classify?

У меня есть проект, в котором мне нужно найти категории текста с помощью Google для классификации текста на естественном языке.

https://cloud.google.com/natural-language/docs/reference/rest/v1/documents/classifyText

В моих текстовых документах будут смайлики и хэштеги. Может ли кто-нибудь сказать мне, как это повлияет на счет? Должен ли я избавляться от них перед вызовом API или оставить их в покое?

Я сам пробовал несколько документов и получаю противоречивые результаты. Может ли кто-нибудь помочь мне с этим?


person Community    schedule 04.01.2020    source источник


Ответы (1)


Не совсем для классификации текста, но для определения настроений, я не верю, что он учитывает смайлики.

Предложения:

  1. Что за день! Я так рада тому, как все обернулось ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
  2. Что за день! Я так рад тому, как все обернулось

оба получают одинаковую +0,9 балла и балл 1,8. (Вы можете попробовать это сами здесь)

person Tejaswa Gavankar    schedule 27.07.2020