一文详解时依协变量,兼谈分层Cox回归

专题合集更多教程
内容来自:“小白学统计”微信公众号,感谢作者授权。
 

在常见的线性回归、logistic回归等这些方法中,因变量只有一个,就是结局怎么样,比如发病与否、血糖值多少等等,没有时间变量。自变量也没有时间概念,通常不会考虑随时间变化的问题。即使在队列研究中,对于研究因素,往往也就是调查一次,结局或许会随访多次。

 

然而在生存分析中,一切变得大为不同。生存分析的结局本身就带了时间变量,时间开始起作用了。这种情况下,自变量也可能出现与时间有关的概念,这种情况下,时依协变量(time-dependent covariables)这种概念就出现了。

 

简单来说,时依协变量的意思就是,对一个人来说,在研究期间,该变量随着时间的改变而发生了变化,所以英文叫做time dependent,也就是说,依赖于时间变化而改变的变量。中文为了简洁,缩写为“时依”,很有诗情画意的一个词。

 

cox回归起码要满足一个最基本的假定条件,也就是等比例风险假定。如果满足,那当然没问题,直接用cox回归就行了。那么接下来的问题就是:如果不满足等比例风险假定该怎么办?

 

如果不满足等比例风险假定该怎么办?

 

如果等比例风险假定违背,至少有两种方法来处理:

 

第一,采用分层的cox回归(stratified cox),也就是按协变量分层分析,然而这种方法有个缺点,所谓“分层虽好,也不能贪多啊”。说错了,分层虽好,但该变量也就没有估计结果了。试想,你把主要研究因素分层了,你还研究什么呢?

 

所以就要说到第二种处理方式,也就是采用时依cox回归,也就是带时依协变量的cox回归。

 

时依cox回归是个好东西,当等比例风险假定不满足,仍然可以分析主要研究因素的效应。时依协变量有好几种,下面就介绍一下常见的几种。

 

时依协变量的种类

 

1、自定义的(difined)时依协变量
 
 

可能大家听起来有点奇怪,没事我自定义个时依协变量干嘛?其实不是自己非要定义,多数情况下是被逼定义。

 

所谓自定义,顾名思义,自己构建的协变量。举个简单例子,性别gender,很明显不是时依协变量(除非有极其特殊的情况),然而gender*时间t,两个变量的乘积,这就是个时依协变量了。这就是自己构造的。

 

那我为什么要构造这个?比如,你要比较两组的生存情况,结果发现组别不满足等比例风险假定,那怎么办,构造个时依协变量吧,group*t,就可以名正言顺地用cox回归了。

 

然而,构造一个自定义的时依协变量,最麻烦的地方在于,时间的尺度应该如何确定,我可以是group*t,也可以是group*log(t),还可以是group*log(t-5),到底应该如何构造。这就很难说了。因为每个数据都不同,没有说那种尺度最好,大家只能到时根据自己的数据看看吧,比如看看散点图,看他们的大致变化。或者还有一种强行方式,多构造几种,然后根据模型评价指标,比较一下哪个更好。

 

2、内部(internal)时依协变量

 

内部时依协变量比较容易理解,也就是说,这个变量不用构造,自己就是个随时间变化的。为什么叫“internal”?因为它不用外部力量,完全是自己内部特征的变化。

 

比如,吸烟,有的人可能去年吸烟,今年不吸烟了,这就是内部时依协变量,自己让自己的吸烟状态发生了改变。再比如,高血压,有的人去年是正常,但是今年步入到了高血压的行列,这也是自己的高血压状态发生了变化。这就是内部时依协变量。

 

3、辅助的(ancillary)时依协变量

 

辅助的时依协变量,跟内部时依协变量有点不同。内部的顾名思义,主要靠自己,而辅助的,则是靠外部的推动而改变。

 

比如污染状态,这个如果城市的工厂关闭一段时间,大气状况变成了“优”,如果工厂恢复运作,大气状况变成了“污染”,这就随时间而发生了变化,而且是靠外部力量推动的变化。

 

再比如,工作状态,本来你可能在一家公司工作,结果公司不景气,裁员了,把你解雇了。这不是你内部自身决定辞职,而是被辞职,这就是外部的辅助力量。

 

4、同时是内部和辅助的时依协变量

 

这个其实不算是一种新的类型,只是有时候有的变量同时兼有内部和辅助的特征。比较典型的例子,比如器官移植,所谓“内部”,意思是你的自身能匹配,匹配上了,那就从“未移植”状态转换成了“移植”状态。

 

然而这种转变不是仅靠自身来实现的,必须有外部因素,也就是说,得有人提供转移的器官才行,如果有人提供,那就从“未移植”状态转换成了“移植”状态。所以,对于器官转移状态的改变,必须同时满足“内部”和“辅助”两个条件,缺一不可。

 

可能大家会觉得,为什么要分这么细呢?不就是时依协变量吗?我直接扔到软件里不行吗?遗憾的是,实际分析时的确不是如此简单。

 

为什么要详细分这几种?因为实际分析时,需要根据不同类型,设置不同的纳入方式,比如SAS软件,你就需要根据不同的时依协变量类型,指定不同的变量变换形式。当由于每个人用的软件不同,我就很难说应该怎么操作了,我个人习惯用SAS,每个软件有自己的设置方式,大家到时只能看相应的软件help了。

 

扫码关注“医咖会”公众号,及时获取最新统计教程!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题