通知:9月1日因服务器突发状况,部分用户可能登录出现问题。如无法正常登录,请联系小咖(微信号:xys2018ykf)我知道了

相关? 因果? 别让统计学直觉骗了你!

专题合集更多教程

将两个事物关联到一起是人类与生俱来的学习能力。

 

小孩子会发现常常先有鸡鸣、再有日出,日复一日便会建立二者之间的关联,甚至去想猜想二者之间是否有因果关系。同样,我们听到窗外的蝉鸣便知盛夏已至,看到皑皑白雪便知深冬到来,也同样是建立了两者之间的联系。我们都知道,并不是蝉鸣带来了盛夏,也不是白雪送来了深冬;甚至,若小孩子问你“是不是鸡不叫的话天就不会亮了?”,你可能还会笑着说“傻孩子,是因为天亮才有了鸡叫,而不是鸡叫带来了天明”。

 

常见的流行病学研究中,发现的大多是相关关系,而非因果关系。例如之前我们推送过的《内科学年鉴》的“咖啡摄入”和“降低死亡率”的关系,就被很多新闻媒体有意或无意地解读为了因果关系。

 

(来源:人民网,获取日期:2017/8/8)

 

今天,我们就一起来看看最常见的错误因果关系。

 

Reverse Causality 因果倒置

 

案例详解

 

世界卫生组织在《婴幼儿喂养指南》中建议母乳喂养两年或更长的时间。相关研究也表明,与非母乳喂养的婴幼儿相比,母乳喂养的婴幼儿患某些传染病的风险更低,也有更低的死亡率。然而,在一些研究中,研究人员发现,接受母乳喂养时间更长(>12个月)的婴幼儿营养不良的风险更高。

 

1997年,来自Johns Hopkins等大学的研究人员专门就此进行了分析,发现具有较低社会经济学地位(socioeconomic status)的家庭通常住在食物资源非常有限的社区内(如距离市中心、超市较远),因此新生儿会无法得到充足的其他食物而更倾向于接受更长时间的母乳喂养。

 

这就是一个非常典型的因果倒置的例子:是婴幼儿较差的健康状况导致了更长时间的母乳喂养,而非更长时间的母乳喂养导致了更差的健康状况。

 

(2005年,有研究声称“结婚的人”比“非婚的人”更加快乐。两个人正在讨论究竟是结婚导致了快乐,还是快乐的人更倾向于结婚。这就是在讨论一个逆向因果的可能性。)

 

小咖解读

 

逆向因果在医学领域也很常见。例如,在一个横断面调查中,研究人员可能会发现“相对于不锻炼的人,每周锻炼次数多的人肥胖风险更高”,并得出错误的结论:“锻炼次数多”导致“肥胖”。然而显而易见的是,很大可能性是肥胖的人为了减肥,每周锻炼次数更多。换句话说,是肥胖导致了锻炼次数增加,而非锻炼次数增加导致肥胖。

 

另一种常见的情况和疾病家族史有关。有糖尿病家族史的人可能会为了预防糖尿病而摄入更少的糖和脂肪,然而他们仍有更高的风险得糖尿病。在一个队列研究中,研究人员如果没有考虑“家族史”这样的危险因素,这就可能得出错误的结论:“低糖低脂肪饮食”导致“糖尿病”。

 

因此,在做因果判断时,我们始终不应该忘记考虑因果倒置的可能性。在收集数据时,也应该收集家族史、某种危险因素的暴露史(如吸烟史)等多种信息,并进行综合考虑。

 

Common factor 共同因素

 

案例详解

 

在研究中,研究人员发现肾衰竭和止痛药的使用显著相关,推测止痛药的使用可能会导致肾衰竭。然而,实际的情况是:糖尿病是导致肾衰竭的主要危险因素之一,而糖尿病患者也更容易得其他疾病,如心血管疾病、某些传染病,导致止痛药的使用量增加。在这个例子中,“糖尿病”就是一个“共同因素”,既导致了止痛药的使用增加、也导致了肾衰竭的风险增加,造成了止痛药和肾衰竭之间假因果关系。

 

 

再举一个更容易理解的例子。

 

在一个研究中,研究人员发现相比在家吃饭的人,不在家吃饭的人心血管健康水平更高。然而,实际的情况是:经济水平较高的人通常心血管健康水平较高,而这些人也可能更忙、而更倾向于不在家吃饭。在这个例子中,“更好的经济水平”也是一个“共同因素”,既导致了更好的心血管健康水平、也和不在家吃饭相关,造成了“不在家吃饭”和“更好的心血管水平”的假因果关系。

 

 

小咖解读

 

因果关系很容易被其他因素所干扰,在流行病学中,我们称其为混杂因素(confounders)。最经典的一个例子就是“卖出的冰淇淋数量越多,溺水人数就越多,因此,为了防止人们溺水,我们应该禁止售卖冰淇淋”。在这个例子中,我们很容易明白,是“温度升高”这个因素导致了卖出的冰淇淋数量增多、也导致了溺水人数增加。我们称“温度升高”这个因素为混杂因素。

 

 

在实际研究中,我们有多种方法控制相关的混杂因素。如我们常见的在研究阶段的配对(matching)、RCT中的随机分配(randomization),以及在分析阶段进行的Mantel-Haenszel方法、回归(regression analysis)等等。

 

其他因果关系的混淆

 

相关不等于因果还可能因为其他原因。

 

如存在双向因果关系(两种因素可以互相影响彼此的存在),类似于生物学中捕食者与猎物的关系。李清伟等(2016)发现“失眠”和“焦虑障碍及抑郁障碍”存在着双向因果的关系,Waldman等(2006, 2008)研究也发现“过多观看电视”和“小儿自闭症”存在着双向因果的关系,可以互相导致。

 

也可能是仅仅出于巧合。例如有人发现每年美国在科学技术、宇宙航天方面的花费和上吊、窒息自杀的人数的关联系数达到了99.79%。当然,因为两件事在同一时间发生,或者拥有相似的增长模式,并不意味这二者必然有联系。这两件事情大概率是没有关联的,也就更提不上因果关系了。 

 

(来源: tylervigen.com,获取日期:2017/8/8)

 

在流行病学研究中,找到相关关系只是“万里长征的第一步”。我们当然希望能够证实某一种暴露(exposure)和某一个结果(outcome)之间的因果关系。然而,这需要更多的后续流行病学研究、也需要更多的基础医学研究来从分子水平上证实。

 

(相关不等于因果。来源:果壳网,获取日期:2017/8/8)

 

长久以来,研究人员们一直在创造各种新的模型,很多的因果推断理论、方法被用于各种研究之中,如流行病学家Austin Bradford Hill于1965年提出的九大因果推断准则、David Lewis在1973年提出的Counterfactual理论、以及现在较新DAGs理论等。

 

作为临床大夫、科研人员,对于医学相关的信息,我们或许比其他非医学专业人员更权威、更令人信服,而这也就更加要求我们充分理解相关性的含义,不要过高或过低解读相关的研究结果。而在自己的研究中、尤其是在关联性的探索中,我们更应该时时刻刻提醒自己“另一种解释”存在的可能性,避免犯下混淆因果和相关的错误。

 

参考文献

1. https://theconversation.com/the-seven-deadly-sins-of-statistical-misinterpretation-and-how-to-avoid-them-74306

2. http://www.tylervigen.com/spurious-correlations

3. https://larspsyll.wordpress.com/2014/12/30/reverse-causal-reasoning-and-inference-to-the-best-explanation/

4. https://www.pritikin.com/what-is-reverse-causation

5. http://www.pewsocialtrends.org/2006/02/13/are-we-happy-yet/

6. http://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704-ep713_confounding-em/BS704-EP713_Confounding-EM4.html

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题