如何控制观察性疗效比较研究中的混杂因素:(一)已测量混杂因素的统计学分析方法

专题合集更多教程

本文内容来自《中华流行病学杂志》2019年第40卷第10期,作者为黄丽红 , 魏永越 , 陈峰教授,原题目为《如何控制观察性疗效比较研究中的混杂因素:(一)已测量混杂因素的统计学分析方法》。感谢作者的授权。

 

过去70年里,随机对照试验(randomized controlled trial, RCT)一直被誉为临床疗效评估的金标准,但随机对照试验通过一系列入选 / 排除标准选取同质性较好、试验风险较低、容易显示疗效的特定样本,与实际临床实践有一定差距,无法推断在存在并发症、伴随治疗等更普遍情况下的风险和效益,无法确定其在临床实践中的可推广性。故在较为理想状态下开展的随机对照试验所得的证据,与临床实践并不完全契合,而观察性疗效比较研究(comparative efectiveness research,CER)是一种有益的补充。

 

观察性 CER 由美国卫生保健研究和质量管理署(Agency for Healthcare Research and Quality)2009年提出,用于系统研究预防、诊断、治疗和监测健康状况的不同干预措施、防治策略等在现实世界中的效果,属非随机对照研究。从医疗大环境看,医疗信息技术的普及和医疗大数据的构建给观察性 CER 提供了前所未有的机遇。美国食品药品监督管理局(Food and Drug Administration,FDA)正在积极推进使用现实世界证据支持药物监管决策的举措,2018年12月发布了《现实世界证据方案的框架》(Framework for FDA' s real-world evidence program)。

 

观察性 CER 中混杂偏倚的控制尤为重要。混杂因素(confounder)又称外来因素(extraneous factor),与干预因素和研究结局皆相关,但不是暴露-结局的因果关系通路上的中间变量,该因素的存在将歪曲(夸大或缩小)暴露因素和结局的真实关联。观察性研究应密切关注潜在混杂因素,采用适当的设计和分析方法,尽可能地控制混杂效应,控制偏倚,使混杂因素的影响达到最小。

 

最理想的办法是在研究设计时就对混杂因素进行控制,例如通过随机分组的方法,从源头上控制混杂的影响。但在非随机对照研究中难以做到,此时可采用限制入组条件、分层、配对等方法,避免或减少混杂因素的影响。

 

可见,观察性 CER 也需要严谨的设计,因研究设计考虑不当或不周所导致的偏倚,例如指标或数据缺失缺少质控等,是无法期待在统计分析阶段来控制的。

 

针对众多已知且已测量的(measured)和未知或未测量(unmeasured)的混杂,笔者将从统计学角度就设计良好的观察性 CER 中如何进行混杂因素控制,以系列论文形式进行述评,并对其正确应用进行总结。

 

观察性CER中混杂因素的可能来源

 

混杂可能来自研究的任何一个环节,观察性 CER 尤为突出。在设计时,观察性 CER 中的干预 / 治疗措施并非由研究者额外施加,而是取决于常规的临床医疗实践模式,由于患者的选择一般不加特别的限制条件,且缺乏随机分组,混杂因素在相比较的组别间分布往往是不均衡的。

 

在实施时,有时干预措施并未标准化,治疗措施可能因患者和医师的交流而改变,也可能因患者的不良反应而改变等。临床指征常易造成一些难处理的混杂因素,例如病情严重的患者倾向于获得治疗或接受更为强化的治疗,患者的身体状况也常是难以测量的一种混杂,尤其是以人群(特别是老年人群)为基础评价干预措施效果时,虚弱的个体(濒危者)通常难以得到多种治疗或预防性治疗,从而影响干预与结局的真实关联。合并用药所产生的偏倚也很常见,例如非处方药,仅仅依靠用药记录或电子病历会低估非处方药的使用,即使有记录的合并用药,其对结局影响的评估也并不容易。

 

在分析和解释时,观察性 CER 的数据来源广泛,数据的收集并非基于某一特定的研究目的,因此,已知的潜在混杂因素的缺失 / 未测量在所难免;由于认知的局限性,复杂的医学研究中往往存在许多未知的混杂因素,将对研究结论带来一定的影响;观察性 CER 的数据量大,信息量丰富,而混杂和效应修饰(交互作用)都是多因素的结果,基于不同研究设计思路,考虑不同的混杂因素组合,采用不同的混杂因素校正的统计分析方法,得到的结果可能会有所不同,如何保证观察性 CER 的内部真实性也是其面临的最大挑战。

 

已知并可测量混杂因素的常用控制方法

 

尽可能识别混杂因素是首要条件。对成熟领域,任何已有证据提示为混杂因素的变量都应考虑;对新领域,尽可能考虑与结局有关也可能与干预有关的因素,可在资源允许的条件下,对所有有关因素都进行测量,尽可能多地收集数据。已测量混杂因素的传统统计分析方法有分层分析、配对分析、协方差分析和多因素分析,非传统的方法主要有匹配法(matching)、倾向性评分法(propensity score, PS)及疾病风险评分法(disease risk score,DRS)等,本文着重介绍 PS 和 DRS

 

为不失一般性,这里考虑两组比较的情形,不妨称为观察组和对照组。

 

(1) PS 

 

由 Rosenbaum 和 Rubin 于1983年首次提出。PS 是多个协变量的一个函数,用于处理观察性研究中组间协变量分布不均衡的问题。PS 是根据已知协变量的取值(Xi)而计算的第 i 个个体分入观察组的条件概率:e(X)=P(G= 1 | X)

 

这里 G 表示组别或干预因素,G=1 表示该个体在观察组,G=0 表示该个体在对照组;X 为协变量向量(X1,X2, .. Xa)。假定个体 i 所在组别与协变量无关,即分组变量 G 与协变量 X 相互独立,若 PS 用传统的 logistic 回归(也可采用 probit 回归)方法计算,即以组别 G 为因变量,以所要控制的因素为自变量建立模型:logit [P(G=1| X)]=α+β1X1+...+βmXm

 

将每个个体的协变量取值代人模型中,即可估计得到该个体的倾向性评

 

可见,PS 是在给定协变量 X 的条件下,个体接受处理(G=1)的概率估计。PS 法本身不是控制混杂的,而是通过 PS 匹配(propensity-score matching)、PS 分层(stratification / subclassification)、逆概率加权方法(inverse probability of treatment weighting, IPTW)等,不同程度地提高对比组间的均衡性,从而削弱或平衡协变量对效应估计的影响,达到“类随机化”的效果,又称为事后随机化

 

将 PS 相同或相近的研究对象在不同的组间进行匹配,组间各特征变量的分布均衡,从而使得不同组之间混杂因素的不均衡性对研究结果的干扰被抵消,为 PS 匹配法

 

将 PS 直接作为一个新的协变量进行模型校正,即在回归分析模型中,以结局变量为因变量,以分组变量为自变量,PS 作为唯一协变量来构建模型,估计组间效应,即为 PS 校正法

 

PS 也可以作为分层变量,将受试者按照 PS 的大小分为若干区间,视区间为层,进行分层分析

 

IPTW 是边缘结构模型因果推断方法中的一种,其基本原理与传统的标准化法类似,根据 PS 赋予每个研究对象一个相应的权重,从而构建出一个虚拟的人群,在这个虚拟人群中,协变量的组间分布没有差异,因而消除了混杂因素的影响。

 

另外,将 PS 作为其中一个协变量计算加权马氏距离,得到的结果既保留了PS 法的优点,又结合了加权马氏距离的优点,从而衍生了通用匹配法(genetic matching,GenMatch)。

 

Sekhon 等[PMID:21633989]分别基于随机对照研究和非随机对照研究,通过模拟试验比较了GenMatch 与 PS,结果显示 GenMatch 可降低由匹配方式带来的条件偏倚(conditional bias)和均方根误差(root mean squared error, RMSE),并可有效提高协变量的组间均衡性。因而,GenMatch 是一个值得推荐的方法。

 

PS 应用广泛,软件工具成熟,R(2.6.0以上版本)软件提供了 Matching、Matchlt  程序包;Stata(14.0)软件提供了 Pscore、Psmatch 2 程序包,均可以进行不同匹配方法的分析。

 

(2) DRS 

 

DRS 的思想最早在1976年由 Miettinen 提出。可基于全研究样本(full cohort)、未干预人群(G=0)或对照组研究对象(unexposed only),历史数据 (historical data),或外部数据(alternate data)估计 DRS。以全研究样本为例,假设所有观测均参与拟合,协变量和干预因子为预测因子,可构建以下模型:

 

其中 Y 为结局事件,G 为干预因素,二者均为二分类变量( “1"为发生,“0"为未发生 ),X 为协变量( X1,X2,...,Xm )。令 G=0,可得 DRS 估计:

 

 

如利用未干预人群、历史数据、外部数据样本数据,则仅利用没有干预的个体构建模型,从而计算 DRS。

 

 

与 PS 类似,DRS 也可用于分层、匹配或者直接作为连续型协变量与干预因素一起纳入模型。但 DRS 与 PS 不同之处在于,PS 用于平衡组间干预倾向,可表示为 G⊥XPS(X),即在给定 PS 的条件下,协变量与组别是独立的(propensity balance);而 DRS 估计研究对象在特定协变量和假定无干预的条件下发生某种结局的概率,可表示为 Y0⊥X I DRS(X),即在给定 DRS 的条件下,协变量与非暴露组的受试者结局是独立的(prognostic balance)。

 

虽然倾向平衡和预后平衡都足以消除已测量混杂因素造成的偏差,但在使用 PS 和DRS 进行混杂控制时,可以估计的两种因果效应类型和因果推断的必要假设都存在显著差异。当干预罕见或干预随时间发生变化时,PS 受限甚至失效,而 DRS 受其影响很小,DRS 在一定程度上能够弥补 PS 不足;但当结局事件发生罕见时,则对 DRS 限制很大,甚至使之失效。

 

Desai 等 [ PMID:27189330 ] 基于巢式病例对照研究设计,通过模拟试验研究,说明 DRS 匹配可降低效应估计标准误和均方误差(mean squared error), 从而有效提高统计分析方法的效能。虽然 DRS 目前在观察性 CER 中应用范围远不及倾向性评分广泛,但有很大的潜在应用空间,尤其是干预前的历史数据,非常适合于估计 DRS。

 

由于目前 DRS 并无成熟的软件包可直接应用,这也许是 DRS 未能广泛应用的原因之一。

 

案例分析

 

PS 可灵活结合各种距离匹配方法,弥补观察性 CER 中组间可比性问题,近年来得到了广泛应用。相较 PS,DRS 所估计的概率不同,但思路相仿,同样能够灵活结合距离匹配方法,虽不及 PS 应用广泛,但可在一定程度上弥补 PS 的不足,具有一定的应用前景 ,本文将对 PS 和 DRS 进行案例分析

 

(1)  PS 匹配案例分析

 

Noah 等 [PMID:21976615] 基于2009年9月3日至2010年1月31日的 SwiFT(Swine Flu Triage)项目的研究数据,比较体外膜肺氧合(ECMO)技术对甲型流感(HIN1)引起的呼吸窘迫综合征(ARDS)的疗效,是一项基于现有医疗数据的疗效比较研究。

 

SwiFT 项目中共有来自193家医院的1756名患者,少数病例病情进展迅速,可出现 ARDS,伴多器官功能障碍,导致死亡。由于严重呼吸衰竭,其中80名患者接受了 ECMO 治疗,1676名患者未接受 ECMO 治疗,经筛选后有195例未接受 ECMO 治疗者可用于对照。

 

研究的主要目的是分析 ECMO 治疗是否能控制疾病,降低病死率。可能影响结局的指标有:连续机械通气的天数;吸氧分数(FIO2);氧分压 (PaO2)与 FIO2 比值;序贯器官衰竭评估分数;年龄;妊娠状态;BMI;HIN1 诊断(确诊或疑似);是否用过一氧化氮吸入、高频振荡;是否辅助心血管支持、辅助肾功能支持、抗病毒治疗等。

 

这些指标在 ECMO 治疗组和非 ECMO 治疗组分布是不均衡的。该研究采用3种匹配方式:变量匹配、PS 匹配和 GenMatch 匹配,为观察组中的每位患者在对照组中寻找一个合适的匹配,以构建组间均衡的新的分析数据集,匹配前后部分指标的比较结果见表1。PS 和 GenMatch 均成功匹配了 75 对患者,匹配成功率93.8%;变量 / 个体匹配法成功匹配了59 对患者,匹配成功率 73.8%。匹配前组间并不均衡的指标经过匹配均达到了均衡的效果。

 

住院期间的死亡风险比 RR 为主要疗效指标,基于匹配后数据,采用 Poisson 回归进行分析,标准误的估计采用 bootstrap 方法估计,两组住院病死率比较如,个体匹配法:23.7% vs 52.5%(P=0.006),RR=0.45(0.26~0.79);PS匹配法:24.0% vs 46.7% (P=0.008),RR=0.51 (0.31~0.84);GenMatch 匹配法:24.0% vs 50.7% (P=0.001),RR=0.47(0.31~0.72)。

 

为了评价匹配因素的选择是否影响结果,该研究进行了感性分析,分别从匹配因素中剔除:① FI02<1.0;② 转运至 ECMO 治疗中心但未采用 ECMO 支持者;③ 疑似患者;④ 同时剔除上述3个因素重新进行分析,考察不同情况下结果的稳定性。敏感性分析表明,减少一些匹配因素,结果是一致的。

 

研究结论:ECMO 能够降低 HIN1 相关 ARDS 患者的住院病死率,且3种匹配方法结果一致,增加了结论的可靠性。

 

上述案例的应用是十分成功的,H1N1 导致的 ARDS 病例并不多见,尤其在 HIN1 大流行后就没有这类病例了,进行 RCT 几乎不可能,利用现有资料借助匹配的方式进行分析成为了有效的研究手段。该研究采用多种匹配方式并行,并通过匹配因素的敏感性分析有效提高了结论的可靠性。

 

然而,在现实应用中 PS 难免存在潜在风险,例如 Zhang 等 [PMID:24996762] 通过对降低败血症死亡率影响因素研究的 RCT 和 PS 的 Meta 分析发现,相对于 RCT 的结果,PS 报道的结果更倾向于有效;而对重症监护相关疗效的 RCT 和 PS 的 Meta 分析却发现 RCT 报道的结果比 PS 更倾向于有效,其原因可能在于重症监护治疗方式复杂多样,基线因素复杂很难均衡,且存在着未测量混杂。另外,对比组倾向性评分相差较大时,匹配、分层可能使得分析样本缺乏代表性

 

因而,PS 在观察性 CER 中的规范应用十分重要,Collins 等  [PMID:22745354] 提出了在观察性研究中使用 PS 分析报告的基本考虑,主要包括:PS 如何估计;如何处理缺失数据;如何创建 PS 匹配样本集;匹配样本集的特征是什么,能否代表一般人群;如何评价观察组间的均衡性;用于治疗效果评价的统计分析方法;敏感性分析结果。

 

(2)  DRS 匹配案例分析

 

Glynn 等 [PMID:22552989] 利用1995 年1月至2004年12月纽泽西州和宾夕法尼亚州政府药物资助项目的观察性数据,比较立普妥与其他他汀类药物的预防效果和高剂量与低剂量立普妥的预防效果,该药物资助项目共有 65~100 岁的 5668 位幸存心肌梗死患者。

 

由于立普妥自1997年开始上市使用,该研究利用1995-1996年的数据(包括826位患者,其中203位1年内再次发生心肌梗死 、卒中或死亡),采用 logistic 回归计算 DRS 进行校正和分层分析,计算 DRS 考虑因素有年龄、性别、种族、高血压病史、糖尿病病史、上次发生心肌梗死的住院时长等。

 

基于此模型预测自1997-2005年的疾病风险概率,立普妥治疗组的平均预测风险概率为0.27,其他他汀类药物组为0.28;高剂量立普妥组为0.27,低剂量立普妥组为0.28,DRS在4组分布近似

 

比较1997-2005年立普妥组与其他他汀类药物组再次发生心肌梗死、卒中或死亡的风险,OR 值为0.92(95%Cl:0.80~1.05),DRS 校正后 OR 值为0.93(0.81~1.07),比原始估计值略高。

 

研究者考虑到 DRS 可能对立普妥近期疗效混杂的控制效果更佳,将研究人群限定为1997-1998年,立普妥与其他他汀类药物比较 OR 值为0.71(0.50~1.0),DRS 校正后的 OR 值为0.57(0.3~1.1)。按照 DRS 分层分析结果见表2,立普妥相较于其他他汀类药物有降低再次发生心肌梗死、卒中、死亡风险的趋势,虽然可信区间较宽。

 

讨论

 

混杂偏倚是观察性研究中重要的偏倚来源,如何控制和减少混杂偏倚是观察性 CER 中的一大挑战。已测量混杂因素的常用统计分析方法总结见表3,在实际应用过程中应在理解各方法的前提下,严格把握适用条件。

 

随机对照研究由于采用了随机分组,从理论上讲,不仅能控制已知的可测量的混杂因素,同时也能控制未知的、未测量的混杂因素,这是观察性 CER 无法达到的境界;观察性 CER 由于更接近现实世界,其结论的广泛性也是个别随机对照研究无法实现的。

 

但是,如果随机对照研究设计不合理,质量控制不严,破坏了随机性,则就失去了其优势。如果观察性 CER 中缺乏严谨的设计,重要因素缺失,即使采用了统计学方法进行了处理,也难以控制偏倚带来的混杂效应。

 

而有些方法(匹配法、PS 匹配、DRS 匹配)由于选择了样本,失去了现实世界代表性的优势。可见,随机对照研究和观察性 CER 是相辅相成的,彼此无法替代,而要发挥各自的优势,均需严谨的设计、严格的实施、正确的分析和恰如其分的解释。

 

扫码关注“医咖会”公众号,及时获取最新统计教程!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题