Я пытаюсь провести анализ настроений по газетным статьям и отслеживать уровень настроений во времени. Для этого я в основном определяю все релевантные новостные статьи в течение дня, загружаю их в функцию polarity () и получаю средние баллы полярности для всех статей (точнее, среднее значение всего предложения из всех статей). в течение того дня.
Проблема в том, что в некоторые дни статей будет намного больше, чем в другие дни, и я думаю, что это может замаскировать некоторую информацию, если мы просто будем отслеживать среднесуточный показатель полярности. Например, оценка 0,1 из 30 новостных статей должна иметь больший вес по сравнению с оценкой 0,1, полученной только из 3 статей. и, конечно же, некоторые из самых экстремальных оценок полярности, которые я получил, были получены в те дни, когда было только несколько статей по теме.
Могу ли я принимать во внимание разное количество статей каждый день?
library(qdap)
sentence = c("this is good","this is not good")
polarity(sentence)
polarity
, а также привести минимальный рабочий пример MWE: stackoverflow.com/help/mcve - person Tyler Rinker   schedule 21.01.2015