应该调低P值,还是干脆抛弃“统计显著性”?

专题合集更多教程

近年来,关于“statistical significance(统计显著性)”和P值的争议一直存在。前段时间,《Nature》发表了一篇题为《scientists rise up against statistical significance》的文章,《美国统计学家》也专门发布了一个针对P值的专刊。感兴趣的可以查看:放弃"统计显著性(P<0.05)"的时代,已经到来了吗?

 

近日,《欧洲心脏病杂志》(EHJ)发表了一篇专家观点,再次针对“统计显著性”发表了自己的观点,到底是降低P值,还是抛弃统计显著性,我们来看看这位专家持怎样的态度。

 

 

几十年来,论文中都基于p<0.05来声明具有“统计显著性”。然而,很多专家也发现,有些论文中的统计学意义和临床意义并不相符,p值的滥用问题很严重。2016年,美国统计协会(ASA)曾针对这些误用发表了共识(表1)。

 

表1. ASA关于P值的主要声明要点

 

方法学专家在核心问题上意见一致,但在许多关键细节上仍然存在分歧,更重要的是,在如何最好解决“统计显著性”问题上也存在分歧。理想情况下,所有学科都需要全面了解统计工具、注意事项和如何正确解读结果。然而,提高所有学者、临床医生甚至普通大众的统计素养需要长期的努力。

 

最常见和严重的误解是,“P< 0.05”就表示效果“是真的”,甚至“很重要”。目前大多数达到P<0.05的研究,并不太可能反映真实的因果效应,更不用说重要效应。大多数研究都存在偶发性或偏倚,可能很少真的具有临床重要意义且值得采取措施。

 

还有一个误解是,P≥0.05就必然意味着“不是真的”或“不存在差异”。小型研究可能就无法发现真正的差异性。如果偏倚削弱了估计值,即使是大型研究也可能会遗漏一些真正的差异。在某些领域,尤其是社会科学领域,有人认为不管差异多么小,也总是存在差异的。还有另一种学派主张,大多数经过检验的关联和效果很可能实际上是无效的。

 

前段时间,有学者针对文献都陷入“统计显著性等同于P< 0.05”这一困境,提出了两个解决办法。

 

其中一个建议是保留统计显著性,但要增加达到统计学显著性的难度 [PMID:30980045 ]。对于仍使用P< 0.05这个阈值的研究,该建议将统计显著性阈值改为P<0.005。这降低了“假阳性”,但增加了“假阴性”。如果“假阳性”确实相比“假阴性”是一个更严重且常见的问题,那么这种方法看起来合理。调低p值可能会给研究人员带来压力,迫使他们进行大规模(或许研究设计会更细致)的研究。

 

如果一个研究是评估不太可能发生的事件,P< 0.005可能仍然不足以保证真实性。此外,还有人担心,许多研究人员可能会更加偏激,强行使P值达到<0.005。尽管如此,这种使用P<0.005的方案还是比较简单,可以应用于已发表的和未来的研究,也可以迅速去除大量没有研究价值、没有临床意义的方向。

 

另一个解决办法是完全放弃“统计显著性”和任何“显著/非显著”的概念[PMID:30894741]。这种禁止“统计显著性”的概念但又保留P值的建议可能是不明智的,如果没有任何预先制定好的规则,任何研究人员都可能以对自己有利的方式来解释任何结果。

 

虽然“零假设”显著性检验常常被误用,但如果正确使用,按照预先制定的分析计划来处理研究问题,仍然是很有价值的,可以帮助排除掉“无意义”的结果。这在很大程度上取决于事先制定整个排除计划时考虑得有多仔细。对于许多临床研究,例如随机试验,是需要有预先定好的规则的。

 

EHJ文章中报告P值的情况 

 

本文作者检索了欧洲心脏病杂志(EHJ)2018年发表的所有文章,检索出摘要中使用了“significant”这个词的文章。最终有62篇文章被纳入(表2)。只有11篇论文使用该词来指代临床意义,3篇论文明确写的是统计显著性(statistical significance),49篇论文是通过一个假设的统计推断间接提到了“significant/significance”。

 

表2. EHJ杂志中使用术语“significance”的文章

 

62篇论文的摘要中,37篇至少报告了一个p值,62篇总共报告了141个p值,其中86%的p值<0.05。96%的摘要中至少有一个p值<0.05。

 

在P< 0.05的论文中,36%会写结果具有“提示性(suggestive)”,除非P< 0.005,否则不会提到统计显著性(statistical significance)。

 

许多P值是用截断值(cut-offs)来报告的,而不是精确值,如141篇论文中有13篇为P< 0.01, 30篇为P< 0.001, 7篇为P< 0.0001。目前多数人认为,用截断值表示p值不是最佳办法,应该给出准确的数字。例如,当P<0.01时,目前尚不清楚这意味着P=0.009还是p=0.0000000001。

 

总之,对统计显著性的阈值要求更加严格,会使大多数临床研究论文受益。更有争议的在于是否应该完全禁止统计显著性。不管怎样,更加考虑研究的临床意义,研究开展之前做好计划,使用合适的统计方法,可以帮助改善临床研究。

 

参考文献:Eur Heart J. 2019 Aug 14;40(31):2553-2554. 

doi: 10.1093/eurheartj/ehz555.

 

扫码关注“医咖会”公众号,及时获取最新重磅研究!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题