Использование R tm для поиска тренда между терминами/сущностями

У меня есть корпус текстового документа по вопросу о судьбе загрязняющих веществ и переносе. Я сделал матрицу терминов и ассоциацию терминов. Однако я хотел бы найти нашу «ассоциацию трендов» между терминами. Например, я хотел бы выяснить, увеличит ли большее количество окружающего света гидролиз химического вещества X. У меня уже есть «легкий», «гидролиз», «увеличение» и «химический X» в матрице терминов, как лучше ответить на вопрос, который я поставил выше? Обратите внимание, что среди этих терминов я уже сделал findAssocs, и они в определенной степени положительно связаны друг с другом (все выше 0,5).

Пожалуйста, порекомендуйте. Спасибо

Ниже приведен грубый процесс tm, который я использовал, обратите внимание, что у меня есть много других документов, и я просто сделал отрывок из небольшого текста, например:

> require(tm)
> my.docs <- c("These experiments showed that the ordinary and the polarized 
+ lights had a stimulating effect on the hydrolytic process, and 
+ both of about the same magnitude. When hydrolysis goes on 
+ (Curves I and II in Figs. 3 and 4) in the presence of light, a larger 
+ amount of the starch substrate is hydrolyzed. The differences 
+ between the two curves (ordinary light and polarized light) are 
+ quite insignificant; they are of the magnitude of twice the probable 
+ error of the mean and so far as it is consistent it can be attributed 
+ to the slight differences existing in the spectral composition of the 
+ lights. 
+ 
+ The situation regarding the effect of radiation on the starch- 
+ diastase system is, in brief: 
+ 1. Ordinary light and polarized light, of the same intensity and 
+ as closely as possible similar in spectral composition, have the 
+ same effect. 
+ 2. Light falling on the starch-diastase system as described, increases 
+ the rate of hydrolysis over that of the same reaction in the 
+ dark. 
+ ")
> funcs <- list(tolower, removePunctuation, stripWhitespace, removeNumbers)
> lightC <- Corpus(VectorSource(my.docs))
> lightCC <- tm_map(lightC, FUN=tm_reduce, tmFuns=funcs)
> my.dictionary.terms <- tolower(c("light","hydrolysis","increases","decreases","reduce","starch"))
> my.dictionary <- Dictionary(my.dictionary.terms)
> tdmLight <- TermDocumentMatrix(lightCC, control=list(weight=weightTfIdf, stopwords=stopwords("english"), dictionary=my.dictionary))
> findAssocs(tdmLight, "light", 0.5)

person user3001392    schedule 17.11.2013    source источник
comment
Это похоже на то, что вы хотите сделать: stackoverflow.com/a/19925445/1036500?   -  person Ben    schedule 17.11.2013
comment
Бен, классный график! Однако, по сути, у меня уже есть такая информация. В частности, я уже знаю, что «свет» в равной степени коррелирует с «увеличением», «снижением» и «гидролизом» (все они находятся на уровне 0,95), но я не могу точно сказать, усилит ли большее количество света гидролиз или наоборот, из этих чистых ассоциативных данных. Потому что вполне может быть тот случай, когда большее количество света уменьшает гидролиз ... Я думаю, что, возможно, нельзя получить такого рода окончательные отношения из мешка словесного анализа? а мне очень хочется иного...   -  person user3001392    schedule 18.11.2013
comment
Я не могу сразу придумать быстрый способ однозначно продемонстрировать это с помощью алгоритма, поскольку это семантическая проблема, которая сильно зависит от порядка слов и контекста на уровне строки. Они теряются в tdm, так что это нехорошо. Коллокаты и n-граммы (3,4,5-граммы) могут быть одним из подходов, которые стоит попробовать. Если у вас получится, пожалуйста, вернитесь и опубликуйте ответ, чтобы мы все могли видеть!   -  person Ben    schedule 18.11.2013