多重比较纠正和其局限性


在同一个数据集上做的假设检验越多,那么出现拒绝真假设的错误就越多。 正如对于某个特定的人,言多必失。 有意思的是,不让此人说话如同杀了他,那怎么办? 只能让他严谨点说。 严谨到什么程度? 也就是,此人要通过什么方法来控制说错话的概率()小到一个特定程度? 设此人说的一段话中含有个断定(就是假设)所对应的-value为为这段话中正确的断定集合,大小为。 邦费罗尼纠正的方法是拒绝每一个对应的断定。 因为拒绝了中任何一个的概率为 Šidák纠正的方法假设各个假设独立,这样概率就可以直接相乘。 所以只要直接拒绝每一个对应的断定,就可使小到特定程度。 以上两种纠正方法属于“不求有功,但求无过”型,过于保守。 更细点说,邦费罗尼纠正属于“比较无知型”纠正(不知道独不独立)。 Šidák纠正还算好点,读点书,有点文化修养,还知道独立这回事。 所以直观上“无知型”自然要更保守。 这个“读书并非无用论”可通过级数展开得到: 设,由于,将该式在处泰勒级数展开得到:

[f(\alpha)=f(0)+f^{(1)}(0)\alpha+\frac{f^{(2)}}{2!}\alpha ^ 2 + \cdots]

带入公式得到

所以,邦费罗尼纠正更保守。

两种假设中都有参数,这个参数直接导致了下面情况的发生:两个人各自说一段话(各自含有的判断个数不相同)中对相同一个问题做判断时,两个人得出的结论可能不同。 在生物信息这种情况时常发生,基因组范围关系研究中,对于不同的数据集,会有得出结果不一致的情况。 比如在对单核苷酸变异与疾病关系研究中,在两个不一样大小的数据集中,相同的单核酸变异与某个疾病的关联关系可能相互矛盾。 一种方法是大家把数据集合大小固定,即,设置成固定值。 另一种方法是降低多重比对出现的结果的组合的可能性,即人为地假设只能在上取值(,且为整数)。 第一种方法简单粗暴一刀切,共同贫穷,并未解决保守性(未增加新知识); 二种方法是无赖地强加了新知识,让这些数据只有“有限度地自由”,这样不同的数据集对同一个问题进行判断时候,降低了数据集合大小对判断该问题真伪的影响。 第二种方法进行多重比较具体分为两个步骤:首先计算出现的有限制的情况的概率,然后再计算某个特定问题属于某个情况的概率,选取概率最大的情况。

石见石页 /
在共享协议(CC)下发布于
类别: 学术 
标签: 多重比较  邦费罗尼纠正  šidák纠正  生物信息  统计  读书并非无用论证明  中
不愿分享?也可捐赠……