Использование Textblob для твитов с несколькими доменами для настроения

Я создаю приложение, которое анализирует настроения для твитов, связанных с новостями, в разных областях, таких как спорт, стихийные бедствия и технологии. Я использую Textblob с режимом по умолчанию (PatternAnalyzer). Обеспечивает ли это хорошее настроение, даже если домены разные? И как я могу оценить его работу? Или лучше предоставить свои обучающие данные для каждого домена и обучить классификатор?


person Ghada    schedule 12.05.2015    source источник


Ответы (1)


Textblob — это базовый предиктор настроений, и он не будет точным. Его базовая модель обучения обучается на наборе данных обзора фильмов, который не будет работать эффективно для вас. Я бы посоветовал вам создать разные наборы данных для каждого, если это возможно.

person Harsh Patni    schedule 18.05.2015
comment
Спасибо за ваш ответ, но сайт (textblob) упомянул, что они используют два метода: один — PatternAnalyzer, а другой — тот, который обучен на наборе данных обзора фильмов, так как я могу оценить метод PatternAnalyzer? textblob.readthedocs.org/en/latest/advanced_usage.html - person Ghada; 19.05.2015
comment
PatternAnalyzer не принесет никакой пользы. Он использует только механизм взвешивания слов. textminingonline.com/getting-started-with-pattern. Чтобы еще раз подтвердить мою точку зрения, textanalysisonline.com/pattern-sentiment-analysis Если вы попробуете из таких предложений, как «Выглядит хорошо» и «хорошо», на выходе будет полярность (0,7), которая представляет собой вес, придаваемый слову «хорошо». Насколько я понимаю, этот алгоритм также использует очень простой механизм обнаружения отрицания (не удалось найти письменных заметок). Если слово полярности имеет слово отрицания (не, нет), оно добавит ему противоположный вес. - person Harsh Patni; 21.05.2015