我们可以相信经验吗?——论医学的相关性和因果性

专题合集更多教程

作者:石清阳

 

前几天知乎上有一个问题,“为什么西医一定要与以无数代人健康为代价筛选出来的中药对立,众多先民当小白鼠验证过的东西就没任何价值?”

 

这个问题有很多争议,下面仅以个人观点谈一谈,现代医学是如何建立

 

说来也挺有意思的,为什么现代医学一定要“揪着”随机试验不放,为什么要抛弃这些看似很宝贵,且牺牲了很多人的经验。其实,理由只有一个:这些经验很有可能是错的。当然,这些经验里面也必然有正确的地方,但是,我们很可能不知道哪些是正确的,哪些是错误的

 

现代医学建立的时间并不长,上世纪40年代末,才有的第一个临床随机试验,可以视作现代医学的开端。1959年,牛津医学教授George Pickering爵士曾说过:“医生个人的临床经验是无计划、杂乱的,而且非常不靠谱。”后来临床流行病学开始发展,逐渐认识到随机对照试验的重要性,并将随机对照的地位逐渐提高。最终1992年,循证医学正式建立,并在证据金字塔中将随机对照试验置于顶端,成为医学中的“金标准”。

 

那么为什么非要执着于随机试验不可?!简单的说:我们需要因果效应

 

经验与因果

 

试想,我们所有观测到的结果,例如:今天我吃了A药然后病好了,都只能说明某一个行为A“吃药”对某一个结果Y“病好了”有相关性。因为有可能你吃药的过程中(或过程前后)也同样发生这一些别的事件B影响着“病好了”这个结果Y,那么如何知道是因为行为A“吃药”还是事件B导致了结果Y的发生,如果每次行为A的发生同时伴随着事件B,那么我们将每次在行为A过后都会观测到发生了结果Y,而事实上很有可能是事件B导致了结果Y的发生。

 

上述同样的情形,在所有经验总结中都存在,既然称之为“经验”,尤其是古代经验,必然是人们观测到的结果,大体上代表了一定的相关性。例如可能有很多事件C、D、E同时影响着行为A和结果Y,还有一些事件F、G同时被行为A和结果Y影响着,均可能造成额外的相关效应来源。

 

这是什么意思呢?假如行为A原本对结果Y并没有任何影响(即:无因果效应),但是,由于事件C的存在,同时影响着行为A的发生和结果Y的发生,那么此时我们观测行为A和结果Y之间会存在相关性,所以这个相关性是除了因果效应以外,“多”出来的那一部分效应值,称为额外的效应。医学上称这个事件C为混杂因素。

 

一个简单的例子则是吸烟、肺癌、打火机之间的故事。很明显是否携带打火机本身和患肺癌风险是否增加无关,然而,吸烟者会更多的携带打火机,而吸烟同时也会引起肺癌风险增加。也就是说,是否携带打火机这件事本身因为伴随着吸烟概率的增加,出现了与肺癌风险之间的相关性,所以吸烟被称为携带打火机和肺癌之间的混杂因素。

 

这个例子很简单,所以一目了然,然而,试想如果我们的知识中不存在“吸烟”这个概念,那么对“吸烟”引起了混杂偏倚自然也不可能知道,我们则会总结出观测经验:携带打火机可以导致肺癌风险增加。这便是大多数经验所犯的错误,误把相关性当成因果性

 

所以,这些经验均代表了一定的相关性,而相关性在医学中是不可取的。那么有人会说:明明很多相关性都确实起了作用,类似于中药中有部分药也是有作用的,这是因为:如果一个相关性确实起了作用,当且仅当,这个相关性中包含有因果效应。但不是每一个相关性都那么幸运包含有因果效应,所以我们才需要识别这些相关效应中的因果效应。

 

两种因果效应

 

那么,因果效应是什么。

 

如果观测到的均是相关性,因果效应应该怎么定义。试想如果我们同一时刻,同时接受两种不同的干预水平,即:干预和不干预。那么我们只需要将干预后的结果和未干预后的结果比较一下,便知道了两者的差异,即因果效应。但是,现实生活中并不可能做出这样的事情,(在平行宇宙中或许可能),因此,这又被称为“因果推断基本难题”。

 

那么,是不是不可能得到因果效应了,事实上也不一定,我们可以依赖一些假设来达到目的。上述问题中,所涉及的是某一个人在同一时刻接受两种干预水平,所以这被称为:个体因果效应。个体因果效应即每个人自己的因果效应,不同的人当然不同,但是能得出这个效应对这个个体也很有帮助。

 

有人会说:为什么不能同一个人在不同的时间点,接受两种水平的干预。也就是今天我先不接受干预,明天我再接受干预,比一下不就行了。事实上,这个行为被称为“个人观察经验”,也就是我们常说的“我觉得我用某个药有效果”。正式的,我们称这个行为为:个体交叉实验(Crossover experiments)。

 

个体交叉实验是唯一可以得出个体因果效应的方法,然而需要3个不可验证假设:(1)干预无滞后效应(no carryover effect),(2)个体接受干预时的因果效应不取决于时间(即无论今天或明天接受干预测量结果相同),(3)个体未接受干预时的因果效应不取决于时间(无论今天或明天不接受干预测量结果相同)。所以,当下次我们要说出“我用某个药一下就病好了”前,想想这三个假设是否满足,或者至少经验上满足。然而,因为生物异质性存在,个体因果效应仍然无法轻易外推到其他人身上。(所以就算在你身上有用,别人身上也不一定有用)

 

那么,即使个体因果效应假设满足(一般很难满足),依然对医学整体决策意义不大,因为效应没有外推性。怎么办?要想因果效应有外推性,我们首先想到的是让一群人来试验不就行了,人越多外推性就越强。事实上,这个思路是对的,正式的,我们称其为:平均因果效应

 

所以,平均因果效应的定义是什么?为了简便,我们暂时忽略随机变异的影响,假定研究在一个无限超总体中(即每个人代表1亿个人或更多)。假设一项研究有10个人,其中6个人接受了干预(A=1),4个人未接受干预(A=0),最终的结果记为Y。那么平均因果效应的定义是:假如这10个人全部接受干预(A=1)的最终结果E[Ya=1],和假如这10个人全部未接受干预(A=0)的最终结果E[Ya=0]之间的差值(或比值),即E[Ya=1]-E[Ya=0]。

 

相关性的定义是:这6个接受干预(A=1)的人的最终结果E[Y|A=1],和4个未接受干预(A=0)的人的最终结果E[Y|A=0]之间的差值(或比值),即E[Y|A=1]-E[Y|A=0]。

 

上述的两个定义(平均因果效应和相关性),告诉我们以下几件事:首先,平均因果效应也面临因果推断基本难题,一群人也无法同时接受两种干预水平。其次,我们平时观察并总结的是相关性,并非因果效应,很明显,两者的区别是:平均因果效应是10个人比10个人,而相关性是6个人比4个人。

 

这就印证了一句古话“相关性不等于因果性”,事实上Fisher先生上世纪50年代用这句话强烈反驳当时吸烟导致肺癌的研究,同时与Cornfield教授展开激烈的争论,而Cornfield教授反驳Fisher先生的方法,正是现在我们使用的敏感性分析的雏形。回到我们的例子中,除了上述这些比较显然的事以外,最重要的是:是否存在某些情形,使得相关性等于因果效应,那么我们就可以通过相关性来进行因果效应的计算。

 

事实上,在哪些条件下(或哪些假设下)相关性等于因果效应,这是因果推断的核心内容,也被称为:识别问题(Identification problems)。回到文章开头,为什么我们必须要进行随机试验,因为在理想的随机试验中,相关性等于因果效应。而在非随机试验中,当满足3个条件时:可交换性(Exchangeability)、正性(Positivity)、一致性(Consistency),相关性也可以等于因果效应,这里就不展开说了。

 

相关性与因果性

 

所以,为什么有些时候我们倾向于认为中医理论是不太可取的,简单的说,这个理论是建立在观测结果上的,也就是无论它再怎么精妙,终究无法识别因果效应,更何况它并不是特别精妙,存在一些矛盾。那么中药的经验是否可取,如前所述,所有的经验均是相关性,它们是否包含因果效应,不知道,可能有可能没有,所以就算将来的随机试验验证了某个中药确实有效果,也不代表这些经验全部是正确的,因为有些相关性确实包含因果性,但仍有部分相关性不包含因果性,有点赌博的成分(当然不完全是随机发生的),但我们不能完全寄托于这种相关性身上,医学是一门严肃的学科,应该尽可能减少错误。

 

我猜有些机器学习专业的同学肯定不服了,比如我们通过某些事件每次都能准确预测结果,那么这样的事件还没有用吗?如果把古代中医经验当成一个大型神经网络,那不是也不断拟合不断修正吗?先不谈这个大型神经网络是否精妙,假设它是精妙的,那么这个经验可以使用吗?答案是:依然不可以。

 

无论多么精妙的神经网络,依然代表了某种比较强的相关效应,可能其中包含一些因果效应,但终究它本身不是因果效应。还是那个古老的例子:如果是神经网络,必然会把是否携带打火机作为肺癌的一个预测变量,事实上,通过判断是否携带打火机肯定能一定程度上预测肺癌,现在是,以后可能也是,这样不够吗?既然以后也可以通过携带打火机的比例预测肺癌,那么这个关系(携带打火机—吸烟—肺癌)一定程度上是稳定的,不就能说明问题了吗?

 

问题在于,所有的相关性均仅对预测负责,也就是如果我们发现一个人携带打火机的概率比较大,我们就可以说这个人未来患肺癌的概率也相对比较大,但是,一旦我们人为介入这个过程,必然会出现问题,比如我们想通过强行干预来降低肺癌的风险,这个时候仅减少携带打火机而没有减少吸烟频率,必然会失败。所以,因果效应为一切事件或行为负责,改变了某个行为必然引起对某个结局的因果效应改变,这个效应可能大可能小,但肯定存在。

 

这并不是说预测就没有用了,相反,预测出的相关效应是因果效应的前提,而预测的实践成本更低(相比于开展随机对照试验),并且也为将来的观测负责,所以同样很有意义。关键在于,我们必须对两者的区分有一个明确的概念,才能更好的认识世界

 

所以,我们并不是“故意”抛弃部分的中医经验,而是,所有的经验均可能出错,我们抛弃了所有学科的所有错误经验,并没有单独针对中医,这是人类文明发展共同的客观规律

 

医学正是一门需要因果性的学科,医学所做的所有努力,都是希望能通过人为干预来降低疾病的发生或提高治疗的效果,而不是仅仅预测到某些疾病会或不会发生。我们的任务则是从无数的相关性中寻找因果效应。

 

Judea Pearl教授写了一本科普读物《The Book of Why》(中译版:《为什么》),里面非常好的介绍了相关性和因果效应的区别。我认为所有医学生都可以看一下,有助于对医学这门学科有更深刻的认识。

 

(书中内容)

 

扫码关注“医咖会”公众号,及时获取最新统计教程

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题