你真的理解p值么? 一句话解释p值的常见误解…

专题合集更多教程

文章一开始,我们一起来看一个临床试验中常见的设计。

 

我们想知道一种新药A能否改变患者的住院天数。在没有确切信息的时候,我们的假设是不能,也就是使用A和不使用A的两组的平均住院天数相同。换句话说,使用A对于患者住院天数没有影响。我们设计了一个随机对照试验(RCT),把200名患者1:1随机分入A组(使用新药)和B组(使用安慰剂),每组100人。

 

试验结果中,A组患者平均住院天数为25.1天,B组为27.6天。进行双样本t检验后,得到了p值为0.015

 

那么,单看这个p值,下列理解哪些是正确的呢?

A. 有1.5%的概率,使用A对于患者住院天数没有影响;

B. p = 0.015 意味着两组平均住院天数有很大不同(即效应值很大);

C. p = 0.015 意味着使用A和患者住院天数的关联度很高;

D. 若 p > 0.05,则意味着没有治疗效果。

 

-------------------------------------------

 

实际上,这4个选项都是错的!让我们一个个来解释。

 

A 选项

一句话解释:p值只是假设和数据的关系

 

首先,我们来明确一下p值的定义。

 

美国统计学会(American Statistical Association, ASA)明确告诉我们:

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

( p值不是“我们研究的假设是真的”的概率,也不是“数据仅仅由随机因素产生的”的概率)

 

p值解释的并非假设本身,而是数据和假设的关系(比如,我们收集到的A组和B组的数据,和假设“使用A对于住院天数没有影响”的关系)。这是因为,假设本身要么就是对的,要么就是错的,不存在一个概率的问题。

 

因此,p=0.015的含义是,如果我们的假设是正确的(即使用A对于住院天数没有影响),那么我们在这一次临床试验中得到平均住院天数差为2.5天这个结果,甚至于更极端(大于2.5天)的概率是0.015。

 

(p值描述的是:如果原假设是正确的,我们得到某次观测值甚至更极端的值的概率。来源:wikipedia.com,获取日期:2017/6/30)

 

B 选项和C 选项

一句话解释:显著≠重要

 

如果A能显著地缩短住院时间2天,而和B在其他方面差不多,那么我们真应该使用A药替换B药么?我们要考虑的当然是住院时间本来是多久:如果住院时间原本是5天,那缩短2天则是很好的结果;但是如果住院时间原本是30天呢?甚至,如果是365天呢?

 

我们先来回顾一下“效应值”的概念。效应值(effect size,是对于试验效果描述的统计量)通常表示不同的处理下总体均值差异的大小。比如,在我们的例子中,A组和B组住院天数所相差的2.5天就是对于该试验效果的一个估计值。

 

效应值是一个和p值同样受欢迎的统计量,这是因为一个更大的效应值意味着更好的效果,这说明新药更加有效。比如对于例子中的新药A,我们乐于看到A组能平均缩短2.5天的住院天数,甚至是3.5天、4.5天,甚至更多。同时,p值受样本量影响非常大,而观测到的效应值则相对受样本量影响较小,因此比p值更加“稳定”。

 

(我们应该同时汇报p值和effect size。来源:the Lovestats Blog,获取日期:2017/6/30)

 

然而,正是由于样本量大小对于p值和效应值的影响不同,效应值的大小不一定与p值相关。在某些情况下,两个类似的研究尽管有截然不同的效应值,也可能得出相近的p值。也因此,p值也不能说明使用A和住院天数的关联度大小。

 

D 选项

一句话解释:p值 > 0.05只说明还没找到有效的证据,而不意味着无效

Absence of evidence is not evidence of absence

 

前面选项错在过度解读了“p值显著的结果”,而这个选项则错在过度解读了“p值不显著的结果”。在上面的例子中,p若大于0.05只能说明没有找到A药有缩短住院天数的证据,而不是A不能缩短住院天数的证据。当然,许多媒体也会犯这一类的错误。

 

(《美国科学院最新报告:转基因食品对人无害》,来源:163.com,获取日期:2017/6/30)

 

比如上面这篇报道,正文第一句写的是“没有证据表明转基因农作物对人类或环境有害”,而标题却被改为了“转基因食品对人无害”。

 

其实,p值描述的是数据和一个特定的统计学模型(原假设)的不匹配程度:p值越小,数据和该统计学模型的不匹配程度就越大。在“无关联”的假设下,只要p值小于1,数据中就包含了某些联系,所以我们也需要关注试验的效果(效应值)来得出结论。同时,p>0.05只意味着没有找到可信服的证据。然而,这不意味着已经检验了所有的证据,也不意味着每个人都会同意所得出的结论。比如,我们若增加样本量,或者提高测量的精度,都有可能得到显著的结论。

 

总之,更小的p值并不意味着更大的效应值或者更显著的结果。

 

p值的正确应用

 

最后,我们谈两句该如何应用p值。

 

在实际的统计分析中,很多科研人员把p值是否小于0.05看作研究结论的“试金石”,为了得到看起来显著的结论,有些研究者会进行所谓的 p-hacking (p值操纵),即有意或无意地尝试操纵数据,直至p值小于0.05,并隐藏其他“不显著”的结果,从而导致报告偏倚(reporting bias)。甚至,美国最大的在线俚语词典 urban dictionary 都收录了这个词,并且给出了例句。

 

(来源: urbandictionary.com,获取日期: 2017/6/30)

 

从1990年到2014年,在摘要中报告p值的生物医学类文章的比例从7%上升到了15%,而且几乎都报告了至少一个p值<0.05。2016年,美国统计协会(ASA)终于看不下去了,给出了p值应用的6大理解概念和注意事项。在这篇文章中,ASA特意提醒科研人员,不应该选择性报告p值和相关的分析。

 

在这里,给大家一些建议:

 

1. 在进行模型建立以及数据分析时,应当全面进行系统评价(systematic review)和Meta分析,全面结合不同的研究结果进行参考。

 

2. 试验设计应当考虑多种因素,比如暴露(exposure)和结局(outcome)测量时的效度和信度、之前的研究结果以及我们假设的可信度等。没有任何的统计学方法能够弥补一个错误的研究设计所带来的影响。

 

3. 更加关注效应值而非p值,确定所研究的干预到底有多大的效果。

 

4. 明确结果的不确定性,比如p值究竟是小于0.05、0.01,还是更小?同时,也应该关注标准差、置信区间和误差范围等统计量,这样才能知道我们的结果的精确程度。(关于置信区间和p值的关系,敬请关注后续文章:《置信区间和p值,到底谁说了算?》)

 

参考文献

1. http://statistically-funny.blogspot.com/2013/06/studies-of-cave-paintings-have-shown.html

2. http://blogs.plos.org/absolutely-maybe/2016/04/25/5-tips-for-avoiding-p-value-potholes/

3. http://med.stanford.edu/news/all-news/2016/03/misleading-p-values-showing-up-more-often-in-journals.html

4. J Anaesthesiol Clin Pharmacol. 2016;32(4):421-3.

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题