FDR сравнения двух векторов

Нам дана матрица с 2 столбцами (образцы, условия эксперимента) и n строк (например, гены), и мы стремимся идентифицировать гены, которые значительно изменились (при определенном FDR) между двумя образцы.

Как это сделать с помощью R?

Ниже приведен пример из руководства по пакету fdrtool, который показывает, как вычислить FDR из вектора p-значений:

library("fdrtool") 
data(pvalues)
fdr = fdrtool(pvalues, statistic="pvalue") 
fdr$qval # estimated Fdr values 
fdr$lfdr # estimated local fdr

Но проблема в том, что у нас здесь только два вектора наблюдений, а не p-значения. Любые идеи?

Вот пример данных, которые можно использовать: foo <- matrix(runif(1000), ncol=2)

Я предполагаю, что у нас нет информации о репликах, p-значении и т. д. Но наверняка гены, которые имеют очень разные значения между двумя образцами, наверняка имеют более сильные доказательства. Есть ли способ назначить FDR в этом состоянии?


person Ali    schedule 08.06.2013    source источник
comment
вы должны добавить некоторые данные к своему вопросу, чтобы сделать его воспроизводимым.   -  person agstudy    schedule 08.06.2013
comment
@agstudy Вы можете использовать foo <- matrix(runif(1000), ncol=2)в качестве данных   -  person Ali    schedule 08.06.2013
comment
Вы должны добавить это к вопросу. Однако адекватно ли это представляет ваши данные? Ваши данные получены с микрочипа или это данные следующего поколения, где результатом является подсчет? Ответ на этот вопрос немного меняет дело.   -  person Dason    schedule 08.06.2013
comment
Тот факт, что вы можете получить результат без сообщения об ошибке, еще не гарантирует, что результат означает именно то, что вы думаете. Человек, от которого вы приняли ответ, полностью исказил смысл своих цитируемых веб-статей... и вы его приняли.. несмотря на то, что он дал вам не код. Предупреждение f#$%^&-ing temptor   -  person IRTFM    schedule 02.06.2016


Ответы (1)


если у вас есть одна выборка для каждого условия, то невозможно получить значение p, потому что это вероятность того, что разница между выборками, взятыми для одной совокупности, статистически различна. Но, если у вас нет повторов, нет среднего, нет дисперсии для каждого гена, как я понял, мы не можем оценить ошибку выборки, и, следовательно, нет, как отличить значение, которое вы видите, от случайного значения, для обычного тест малых выборок, как t-критерий. Посмотрите это, может поможет:

http://en.wikipedia.org/wiki/P-value

http://www-stat.stanford.edu/~tibs/SAM/

Что вы можете сделать, это сюжет MA

http://en.wikipedia.org/wiki/MA_plot

и посмотрите на распределение ваших данных, которые являются большими различиями, и выберите их. Но это не в статистических рамках анализа частоты ложных открытий, это может помочь в качестве исследовательского анализа, но в этом нет реальной статистики. В литературе по микрочипам вы, вероятно, найдете альтернативы, чтобы сделать набор предположений и проверить гипотезу, но я не знаю, какую указать, может быть, в пакете affy она есть...

введите здесь описание изображения

person user1265067    schedule 08.06.2013
comment
p-значения НЕ являются вероятностью того, что разница между выборками, взятыми для одной совокупности, статистически различна. (Учтите, что небольшое значение p обычно считается хорошим результатом.) На самом деле это вероятность того, что вы получили бы это значение (или еще одно экстремальное значение), если бы выборки были из ОДНОГО и того же распределения. Пожалуйста, просмотрите свою основную статистику. Ваша интерпретация является распространенным заблуждением, но, несмотря на то, что она распространена, она очень неверна. - person IRTFM; 02.06.2016