实例解析时间依赖性暴露和时间依赖性混杂,如何估计因果效应值?

专题合集更多教程

作者:胥洋

 

上一期中我们已经介绍了什么是时间依赖性暴露,什么是时间依赖性混杂?并且引入了有向无环图来表示因果推断中各变量之间的关系从而判断一个因果推断问题是否可以被识别?(文章链接:观察性研究中的时间依赖性混杂,到底是什么?

 

在判断一个因果推断问题可以被识别后,那么下一步就是要通过一定的统计方法对因果效应值进行估计。所以从本期开始,我们将引入一个实际的数据集,并且分别用回归,加权和标准化的方法对时间依赖性暴露的因果效应值进行估计

 

案例数据

 

假设有25920名糖尿病患者参加一个两阶段的临床试验,该试验的目的主要是评估新型降糖药物达格列净与传统降糖药物二甲双胍相比,对延缓糖尿病视网膜病变的发生是否有作用。

 

在试验开始时,25920名糖尿病患者随机接受达格列净(1/2)或二甲双胍(1/2)治疗,6个月后测量糖化血红蛋白值。对于糖化血红蛋白值达标(<7%)的患者,在第二阶段再随机接受达格列净(1/2)或二甲双胍(1/2)治疗;对于糖化血红蛋白值不达标(≥7%)的患者也随机接受达格列净(2/3)或二甲双胍(1/3)治疗。第二阶段结束后评估患者是否发生视网膜病变。

 

现要回答:一直接受达格列净治疗的患者与一直接受二甲双胍的患者相比,糖尿病视网膜病变发生的风险是升高了,还是降低了?

 

数据如下:

 

 

A0代表第一阶段开始时的治疗,1表示接受达格列净治疗,0表示接受二甲双胍治疗;

L1代表第一阶段结束时的糖化血红蛋白达标情况,1表示未达标,0表示达标;

A1代表第二阶段开始时的治疗,1表示接受达格列净治疗,0表示接受二甲双胍治疗;

N代表总人数;

Nevent代表发生糖尿病视网膜病变的事件数。

 

李雷是一名流行病学专业的研究生,凭借其过硬的流行病学知识分析:“A0的取值是完全随机的,所以对于其来说没有混杂因素,A1的取值是条件随机的,受L1的影响,同时L1代表糖化血红蛋白值,从既往报道的研究中可知其与糖尿病视网膜病变显著相关,因此L1是A1的混杂因素”。

 

基于以上分析,李雷认为应该拟合如下的模型对数据进行分析:

其中,表示:在L1=0时,与一直接受二甲双胍治疗的患者相比,一直接受达格列净治疗的患者糖尿病视网膜病变发生风险的优势比OR;

表示,在L1=1时,与一直接受二甲双胍治疗的患者相比,一直接受达格列净治疗的患者糖尿病视网膜病变发生风险的优势比OR。

 

李雷写了下面的R代码对数据进行了分析

 

得到在L1=0时,OR等于0.983,在L1=1时,OR等于0.982。

 

(上述的两个OR值也可以通过手动计算获得,小伙伴们也可以尝试一下,加深对统计过程的理解)

 

那么上述数据中OR的真实效应值为多少呢?

 

先求

所以 ORA0=1;

 

再求

所以ORA1=1。

 

根据 g-null theorem,当一个序列暴露中各期暴露对结局无因果效应,那么整个序列暴露对结局也无因果效应。

 

可见在此随机对照试验中,使用回归的方法估计因果效应是有偏的。

 

小伙伴们可以根据第一期介绍的内容画出有向无环图,并根据有向无环图解释为什么李雷的分析是有偏的?

 

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题