放弃"统计显著性(P<0.05)"的时代,已经到来了吗?

专题合集更多教程

作者:姚佐北

 

最新一期《Nature》杂志发表了一篇题为《scientists rise up against statistical significance》的文章,旨在号召科研工作者放弃“统计显著性”。为啥?因为每当大家看到P<0.05时,都迷之自信地得出“A与B有联系”或“A与B有差异”等类似的结论。

 

我想很多读者看到这里都会不禁吐槽:“不说差异具有统计学意义、具有统计显著性,那我文章要怎么写?”好吧,问题来了,P值<0.05具有统计学差异,那你能解释一下P值是什么吗。(想到以前上课的时候,一旦老师提问哥不懂的问题,哥就会条件反射地低下头来思考人生,避免跟老师眼神交流。)

 

2002年Haller和Krauss在心理学研究者和学生中做了一项关于P值意义的调查,作者给出了6个判断题(常见的关于P值的错误解读),让参与者进行正误判断,结果发现44个学生(100%)均无法完全判断正确;即使是教授方法学的导师,也有80%不能全部判断正确。这说明很多研究者其实并不完全理解他们所使用的研究工具! 

 

P值是什么

 

(敲黑板)P值指的是在假定原假设为真时,获得与目前样本相同或者更为极端的结果的概率。P<0.05就是在假定原假设为真时,获得与目前样本相同或者更为极端的结果的概率<0.05。因为概率<0.05是个小概率事件,在一次试验中基本不可能发生,所以拒绝原假设,接受备择假设。

 

那么为什么是0.05而不是其他数字呢?其实,这是Fisher老爷子在把P值发扬光大的时候拍脑门定的(发明P值的是Pearson。没错!就是那个Pearson)。其实在不同的情形之下,应该应用不同的显著性差异水平,例如目前在粒子物理学和基因学研究上,显著性差异的门槛已经定在了丧心病狂的10-8—10-7量级上,甩了0.05不知道几条街。

 

对P值的误区

 

部分医疗工作者对P值进行解读时常步入这样的误区,就是错误地认为P值越小,效应越大

 

举个例子:探究不同合并症对于心衰患者一年全因死亡的作用,发现合并高血压的患者HR=3,p=0.001;合并心肌淀粉样变的患者HR=8,p=0.04。怎么解读这个结果呢?我们应该说合并高血压的患者的一年全因死亡风险可能比未合并高血压的患者高2倍(或者说,合并高血压的患者的一年全因死亡风险可能是未合并高血压患者的3倍);同样的,合并心肌淀粉样变的患者可能比未合并的患者高7倍。

 

为什么说可能呢,因为P值给出了潜在的假阳性的概率,虽然很小,但是还是有可能,P值越小只能说存在这个关联的可能性越大。但是从效应(相对风险)上来讲,心肌淀粉样变(HR=8)明显比高血压(HR=3)更有害。可见单纯看P值来判断变量的重要性是非常片面的

 

我们再扯远一点,那么结合P值和HR一起看,不就ok了吗?哈哈,如果考虑到流行病学数据,你会发现高血压的患病率(基数大)会远远高于淀粉样变,并且高血压存在切实可行的控制措施,从人群水平来讲,控制高血压更重要,更能使人群获益。可见,科学的复杂程度不是单单一个P值或者简单几个参数的结合就能搞定的

 

自从P<0.05被视为具有统计学意义的标准之后,P<0.05便被研究者错误地视为“存在效应“而被推上科研神坛,以及成为某些杂志评定论文能否发表的指标。在当前“publish or perish”的环境下,就有研究者(不少,真的是不少)绞尽脑汁(手段众多,不乏造假)让P值达到可发表的标准。

 

一个经得住考验的科学假设需要重复实验来证实,造出来的P<0.05注定无法被复制从而浪费科研资源(一个阴性的研究从某种程度上可以告诉后来者此路不通请走他路;相反一个虚假的阳性研究会导致其他团队将大量科研资源浪费在后续的研究中)。

 

P值的“可重复性”

 

2015年《Science》发表了一项由200多个心理学研究者共同完成的一项实验,该实验对100项已发表的研究进行严谨的重复实验,发现在97项P<0.05的研究中仅有36% (35项)可重复P<0.05的结果,39%的实验结果主观上认为能被成功重复出来。

 

这项研究还发现,源研究中P值与是否能够成功复制之间存在一个有趣的现象:P值越大,可被重复的成功率越小。这似乎也没什么特别之处,但问题在于,有人发现既往发表的阳性结果的研究中,P值在0.05附近的文章发表量出现了一个小高峰,即存在潜在的造出来的P<0.05的阳性研究结果,进一步使实验的可重复性降低。

 

这引起了科学界的反思,尽管不能把不可重复性全部归罪于P值(研究对象的个体差异、具体实施情况等也可影响实验能否被成功复制),但在这场“可重复性危机中,P值无疑起到了推波助澜的作用”。

 

重新定义“统计显著性”?

 

大家还记得2017年发表的一篇关于重新定义统计显著性的文章吗?这篇名为《redefine statistical significance》的文章建议将统计显著性由0.05降到0.005,而把P值在0.005到0.05之间称为具有“提示性“(suggestive)。该文章一经刊出,立刻引发了科学界一阵议论热潮,总体来讲,毁誉参半(那年朋友圈好多在读研究生担心自己被毕不了业了)。

 

如今,最新一期《Nature》杂志发表的题为《scientists rise up against statistical significance》的述评,更是直接号召科研工作者放弃“统计显著性”。这次反过来了,P>0.05并不意味着“无差别”或“无关联”

 

由于P>0.05往往意味着对应的置信区间跨过无效值(如0或1),因此文中强调,不能因为得出的P值大于0.05或置信区间包含无效值,就草率地得出“无差异“或者“无关联”的结论。

 

文中举了一个例子:在两项关于NSAID类药物是否有增加新发房颤风险的研究中,早先Schmidt等发现与非暴露组相比,使用选择性COX2抑制剂的人群(暴露组)新发房颤风险OR值为1.20(95% CI 为1.09-1.33,p=0.0003),认为“使用选择性COX2抑制剂与房颤发生风险增加相关”;

 

尔后Chao等发现使用选择性COX2抑制剂的人群新发房颤风险OR值为1.20(95% CI为0.97-1.48,p=0.091)(原文为“OR=1.197,95%CI=0.945-1.284,p=0.238”,后修正),因此给出“使用选择性COX2抑制剂与房颤发生无显著相关性”。 

 

然而当我们进一步审视两个研究的具体数据时,你会发现两个研究的点估计几乎完全相同,并且阴性研究(Chao)的95% CI完美地包含了阳性研究(Schmidt)的95% CI,即两个研究的结果本质上并无区别,仅仅因为P值是否小于0.05或95% CI是否包含无效值而得出了截然不同的两个结论。

 

 

作者提到,自己在过往的审稿过程中曾遇到过因为P>0.05就草率地得出两组心衰患者6分钟步行距离无差别的可笑结论(一组均数443.85m,另一组均数377.91m)。为什么说可笑,因为对于心衰患者来说,66米的差异尽管没有越过所谓的P<0.05的“统计学显著性”门槛,但是完全是有现实意义的。

 

类似的错误其实非常常见,对上百篇文章的调查发现近一半的无统计学显著性差异的结果被错误地解释为“无差异”或“无作用”。

 

基于目前对P<0.05的过分追求和对P>0.05的错误理解,最新一期《美国统计学家》杂志发表专刊,呼吁建立一个没有“P<0.05”的世界,号召大家放弃“统计显著性”的说法。

 

“我们并不是呼吁废除P值”,也不是“引领大家步入一个低质证据突然变得可信的世界”,而是“呼吁停止用P值来制定一个二分类的、非黑即白的分界线以此决定一个实验结果是否拒绝或支持某个科学假设”(有多少人看到p=0.049999喜极而泣,又有多少人看到p=0.050001口吐鲜血)。

 

放弃“统计显著性”之后怎么办

 

放弃了“统计显著性”,那接下来该怎么办?这次统计学家们没有像以前一样调皮说“我也不知道了”。

 

1. 描述P值时应以连续变量来描述,提供具体数值,而不是以P>0.05等分类形式来呈现。例如:p=0.049999或p=0.050001,而不是p<0.05或p>0.05。

 

2. 用“兼容区间”来替代“置信区间”,防止对试验结果过分自信的解读。这是因为“兼容区间“是基于统计假设来计算的,区间内的所有数值都与数据合理兼容,尽管兼容性有所差异(点估计兼容性最大,与点估计值距离越远的数值兼容性越小)。

 

除了对点估计进行解读外,还应该对兼容区间的上下限进行解读。例如上面Chao的阴性研究结果可以解读为“正如先前的研究,结果提示使用COX-2抑制剂的患者发生新发房颤的风险增加20%。虽然该风险范围从降低3%(小的负相关关系)到增加48%(较大的正相关关系),但是该结果仍与数据合理兼容”。

 

3. 明确分析过程中的各种统计假设和不确定因素,并用多种合理的统计模型分析一个问题,并呈现所有分析结果,而不是只展示你所感兴趣(经常是所谓的阳性)的结果。

 

4. 预先设定合理的效应大小然后去证实它,RCT就是这种模式。对于回顾性研究来说,根据已有的研究背景资料和可供研究的样本,预设效应大小、β值,可推导相应的α(或许会<0.05,或许会≥0.05,然后证实样本对应的P值是否达到α的标准,而不是在忽略效应大小的前提下直接通过计算P值去证实效应的存在。

 

例如预设A药比B药能更好的控制血压(相等剂量能进一步降低5mmHg),然后根据上述的步骤去证实这个假设有多大的把握成立;而不是通过计算得出P<0.05,但其实A药比B药只降低了毫无临床意义的1mmHg,就得出A药比B药能进一步降低血压的可笑结论。

 

还有许多其他的方法,这里不一一列举,有兴趣的小朋友可以去看看这期的《美国统计学家》,发布了一个针对P值的专刊,一共40余篇相关的文章,肯定能找到你想要的。

 

(专刊链接:

https://www.tandfonline.com/toc/utas20/73/sup1)

 

总的来说,不可能存在一个放之四海而皆准的方法来判断统计推断与科学假设是否相符。废除“P<0.05”这一所谓的“统计显著性”有利于科研工作者正视研究中所有不确定因素的存在,从而时刻保持怀疑和思考,将精力放在思考如何控制不确定因素、如何设计更严谨的研究方案、如何有效落实研究方案、如何确保数据质量、如何把研究结果和早期研究结果相联系做进一步的合理解释(而不是如何造出P<0.05的结果),并保持开放和谦逊,公开所有的结果,了解并清楚认识到研究自身的局限,接受同行的评议。

 

编辑用两句话高度概括了这期杂志所要传递的科学精神——“接受不确定性。保持思考、开放和谦逊”。

 

其实许多高分期刊已经开始慢慢进行不彻底的改革,在文章中不再提“认为P<0.05具有统计显著性”,不再报告P值水平,而使用点估计和区间估计来替代,或是用贝叶斯因子来替代

 

出发点是好的,但是具体操作起来难度很大。首先就是各杂志社编辑们的审稿难度大大增加,因为废除了“统计学显著性”之后,要求编辑们对某一领域背景知识要非常的了解。其次,由于文章的生杀大权落在编辑们的手上,主观性也会相对增加。未来的科学世界将会如何变化,我们拭目以待。

 

最后引用把P值发扬光大的Fisher老爷子说的一段话来结束今天的话题。

 

(这略带鄙视的亲切笑容仿佛在警告你别胡乱解释P值)

 

“实际中只有凭借经验才能确定显著性检验在频率意义上的结果是否显著。总之,我们得到的结论,既依赖于对类似事物的直接经验,也依赖于我们对观测效应如何产生的一般性理解。潜在假定的引入,只会掩盖这一事实:真实知识的产生过程其实是试探性的。”

 

参考文献:

1. Nature. 2019 Mar;567(7748):305-307.

2.Methods of Psychological Research Online. 2002, Vol.7, No.1

3. Science. 2015 Aug 28;349(6251):aac4716.

4. Int J Cardiol. 2014 Dec 20;177(3):1089-90.

5.Nature Human Behaviour .01 september 2017.

6. The American Statistician. 20 Mar 2019.Pages 1-19

 

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题