随机分组就不用考虑混杂了吗?

专题合集更多教程

文章来源于“小白学统计”公众号,感谢作者授权

 

我听到过不少流行病学家说过类似的话:“这些都是随机对照试验,哪里来的混杂?”、“随机分组,怎么可能会有混杂”,等等。其实我个人一直很疑惑,随机分组真的就没有混杂了吗?

 

当然这个疑惑我无论问谁,可能都没有明确答案。事实上,有的人也会呛你一句:就算随机分组仍存在混杂,你能找到一个比随机分组更好的方式吗?然而我想,不能因为可能目前没有比随机分组更好的方式,就非得默认随机分组就是最好的方式。俗话说,没有最好,只有更好。只有不断探讨、怀疑当前的方法,才有可能不断发展,否则就故步自封了。所以我就自己来验证一下,供大家讨论,如有不合理之处,请各位专家不吝指出。

 

随机,这是当年统计学鼻祖Fisher首次提出,现在已经是作为试验设计的金字塔顶端。我们都相信,随机分组可以均衡已知的或未知的混杂,理论上,随机分组应该是可以得到比较可靠的结果。

 

然而,我始终还是想搞清楚:随机分组后,真的不存在混杂了吗?既然没有人给出答案,我还是自己通过统计模拟来解答自己的问题吧。(我想,这种模拟应该别人也做过,不过我比较懒,没有查文献,就自己直接做统计模拟了。如果有朋友知道,可以顺便提醒我一下。谢谢)

 

下面是我自己做的一个统计模拟。思路如下:

 

(1)产生一个10000人的总体,其中包含一个x变量,一个y变量。x均值为3,y均值为4(其实均值多少无所谓)。x作为协变量,y是结局变量。

 

(2)从总体中随机抽取一定例数的样本(我分别设置了200人、500人、1000人、2000人)。

 

(3)以200人为例,将抽取的200例样本随机分组,每组各100例。重复1000次。

 

(4)计算分组后两组的x差别大小。理论上,x在两组间应该差异很小(因为随机分组)。

 

(5)计算两组的y差值大小(原始差值),并计算校正x后两组y的差值大小(校正差值)。理论上,如果x在两组间差别很小的话,校正和不校正x应该对y影响不大。也就是说,y的原始差值和校正差值应该差别不大。

 

(6)比较y的原始差值和校正差值这两个到底差别有多大。这里采用了“(校正差值-原始差值)/原始差值” (用bias表示)这样一个相对偏差的方式来表示二者差别大小。

 

根据上面步骤,如果随机分组能够保证两组均衡的话,那么bias应该很小,最理想的情况,应该都是0。当然,肯定不可能都是0了,但应该在0附近才对。否则,很可能随机并没有达到预期效果,并没有将两组的x均衡。(注意这里我并没有采用p值,因为p值跟样本例数有关,效应值才更说明问题)。

 

下面就是结果了,我只展示样本为200的一部分结果,因为我发现200例、500例、1000例、2000例结果都差不多(可能跟例数没什么关系?)

 

下图反映了1000次重复抽样的y原始差值和校正差值的情况。

 

 

这个图中,绿色是y的原始差值,灰色是y的校正差值。可以看出,分布上还是有一定差异的,灰色(校正差值)更集中一些,而绿色(原始差值)相对更分散一些。

 

下面是1000次抽样的两组x(协变量)的差值分布

 

 

可以看出,总的来说,x在两组间的差值都是在0附近的,即比较均衡。其中差值大于0.6或小于-0.6的比例大约为5%。大于0.3或小于-0.3的比例大约为30%。

 

最后看(校正差值-原始差值)/原始差值” 这一指标。

 

 

我们会发现,这个结果很有意思,不像上面两个那么好看。因为有的偏差是非常大的,尽管很少,不到1%,然而这些偏差足以导致结果发生颠覆性变化。

由于上图不好看,我把太大的值去掉,横坐标只保留到-20和20(也就是20%的偏离范围)。这样清楚一些。

 

 

可以发现,大多数的还是偏离很小的,绝大多数的偏离都在5%以内。其中偏离在5%以上的,比例大约为10%;偏离在10%以上的,比例大约为5%。这并不算很大。

 

根据上面结果,我个人一点看法是:

 

关于随机分组,大多数情况下是可以保证两组均衡的,从而协变量对结果的影响很小;然而,如果就说“随机对照试验何来混杂”这样的话,却未免绝对。一个结果如果偏离10%,算不算大呢?这个就根据各位的理解了。因为在1000次随机分组中,如果完全假定两组均衡而不做任何校正,大约有50多次是能够导致结果偏离大于10%的。甚至有10次左右的偏离大于100%,也就是说,如果原来的两组差值为1,如果不校正很可能就变成2了。尽管这种几率非常低,但一旦发生,就是致命性的。关键是,这是有可能发生的。

 

所以,即使你是做随机对照试验,也不要掉以轻心,把随机分组当做挡箭牌,“我都做了随机了,还考虑什么混杂啊?”,这不是一种严谨的态度。任何方法或技术,总不可能尽善尽美。有时我们还是得勤于思考,而不是惰于习惯。

 

扫码关注“医咖会”公众号,及时获取最新统计教程!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题