超几何检验的潜规则


文献中的潜规则永远是可怕地存在,不依人的意志转移。 相信也好,不相信也好,它就在哪里,不闹不吵。 关于这个超几何检验的潜规则很微妙。

hypergeome

超几何检验某情形:试图搞明白在基因集合中,哪个生物学过程(基因本体的生物学过程)高表现。 如图所示,直观地看,下述判断是对的:“如果在基因集合中(前景),对应的某个生物学过程的基因个数与该基因集合中含有的基因个数的比值大于在实际中对应的所有的基因的基因个数与所有生物学过程对应的所有的基因的集合(背景)的基因个数(n为其余的生物学过程对应的基因个数),那么就是高表现。”

这种直觉是错误的倾向,因为实际上可能存在这种情况:某一个基因在背景中异常的罕见,突然出现一次在前景中也可能是高表现。

关于-value的含义和计算方法请戳前篇博客。 这里给出具体的用R做超几何检测的方法,其标准的步骤如下:

第一步,做假设

“没有了观众也就没有了表演”————山本一木

没有假设就没有检验。 在该超级检验的情形下所做的假设为:中的表现要弱于其在背景中的表现。

第二步,计算-value

与上述假设对应的-value为:

该公式所对应的R代码很简单、很直观,如下:

phyper(q,m,n,k,lower.tail=FALSE)

现在就完成了超几何检验,但微妙之处在于:“背景是什么?”。
此处背景的解释可以有两种:

模楞两可神马的最令人讨厌、憎恨。
但搞笑的是,关于这两个解释的争议似乎最终是先有鸡还是有蛋的问题。

石见石页 /
在共享协议(CC)下发布于
类别: 学术 
标签: r  sample  test  生物信息  检验  中
不愿分享?也可捐赠……