被估量、估计方法和估计值-- JAMA统计与方法指南

被估量、估计方法和估计值

Estimands, Estimators, and Estimates

***本文仅供学习交流***

原著:Roderick J. Little, PhD; Roger J. Lewis, MD, PhD

翻译:墨点星沟,医学硕士,公共卫生医师

大多数随机临床试验(Randomized clinical trials, RCTs)的主要目标是得到某种治疗在特定患者群体中的疗效。干预的真实效果(称为被估量)是利用试验中获得的数据进行估计的,但受制于治疗依从性变化、患者失访和数据质量相关的局限性。

被估量和相关目标人群的选择应反映试验的目的,并可根据研究的设计者或资助者、将使用研究结果的人以及激励人心的科学问题而变化。在临床试验PIONEER 31,研究人员比较了接受背景治疗的2型糖尿病患者加3个剂量的口服西格鲁肽和西格列汀的效果。该研究设计使用2个被估量来概述治疗效果,分别为治疗方略被估量和试验用药品被估量。

名词解释

什么是被估量?

干预措施的真实效果就是被估量。被估量是一个目标量,即研究想要测量的量。它是患者结局的总结,如接受某种干预/治疗措施的患者和未接受的患者的平均结局或死亡率的差异。被估量可以同时用来描述治疗的获益和副作用/不良反应,因此可能需要多于1个的被估量来充分体现研究的结果。

试验数据仅提供了试验被估量的估计值,因为试验受试者是从人群中抽样而来的,而且并非所有随机参与者的结果都能观察到;另外,临床试验执行中还存在着实际的限制/局限,如受试者不遵守既定方案或未完成研究。与被估量相对应,估计方法是一个公式或算法,用于使用临床试验数据估计目标量,如两个治疗组间样本均值的差异,或生存曲线的Kaplan-Meier估计法。一个被估量的统计推断需要选择估计方法和测量其精度。统计推断的经典方法是假设检验、置信区间和贝叶斯分析中的后验可信区间。估计值是估计方法应用到实际的试验数据中,所获得的数值。

为什么被估量的选择很重要?

最佳被估量和相关目标人群的选择由试验目的而定。例如,试验的发起者可能对依从方案被估量--受试者依从指定治疗后的治疗效果--感兴趣。然而,申办方或临床医生可能对意向治疗 (intention-to-treat, ITT)被估量某种治疗方法对所有已分配治疗方法的个体的有效性,无论受试者是否依从方案--感兴趣。不同被估量的选择可从根本上解决不同的问题。

临床试验旨在度量治疗和结局的因果效应。被估量的选择决定了这些效应是如何被测量的,而且选择的被估量不够明确/清晰,会使试验的结果难以解释。好的被估量和估计方法有以下几个特点:

1.该被估量比较了能反应治疗的主要获益和风险的结果。当使用替代结局指标或近期结局指标时,这一考虑尤为重要。例如,在计划描述预防心源性猝死药物的效用时,研究人员比较了心室异位抑制和心电图2。某药物基于药物活性替代指标有所提高这一RCT的结果而被批准上市,但具有权威的、以生存为被估量的CAST试验3的结果表明,被批准的药物实际上降低了存活率。这一差异可能导致生命的重大损失。

2.在研究样本中,估计方法应该能够总结/概括治疗的因果效应。因为个体均有机会被分配到治疗组或对照组,所以个体所接受治疗的因果效应是不同的4。这种个体效应通常是难以测量的,因为只观察到一种可能的结果,也就是实际分配的治疗结果。然而,总结性的因果效应,如平均值,可以对个体所在群体/分组进行估计。内部效度是在研究中样本中评估治疗的总结性因果效应的一种能力。如果违反了统计分析策略的假设,则可能无法满足这一要求。

3.被估量应该能概括治疗对目标人群的因果效应。外部有效性指的是建立针对目标人群 (通常由将接受临床治疗的患者组成)的治疗的平均因果效应的能力。考虑到内部效度,影响外部效度的主要因素是效度修正,即治疗效果的大小会因个体的特点而不同。降低外部效度的实质性效应修正的发生是因为目标人群通常定义较为宽松,或者RCT中的个体通常不是随机抽样而来的,而是自行选择的志愿者。评估试验中效应修正的常用策略是根据基线特征(如人口统计学变量或初始疾病严重程度)比较各亚组的平均治疗效果。估计的亚组治疗效果的相似性表明,效应修正很小,增加了外部有效性的证据。

4.估计方法应该能提供一个有效的、无偏的研究被估量的估计。要做到这一点,估计方法必须具有良好的内部和外部效度。RCTs是产生证据的标准,因为对治疗的随机分配往往会消除观察到的和未观察到的混杂偏倚,从而增加内部效度。通常情况下,观察性研究比RCTs规模更大、成本更低,如果测量和控制了潜在的混杂因素,观察性研究可能比RCTs有更好的外部效度。然而,观察性研究很容易受到未测量的混杂偏倚的影响。5由于内部有效性是外部有效性的必要条件,因此RCTs将继续是关键的证据来源;然而,来自RCTs和观察性数据库的证据可以创造性的结合。5

可选择的被估量的局限性

被估量是概括性的,不能反应治疗相关的全部特征。RCT和观察性研究结果的稳健性 (已确定的治疗因果效应的等级/程度) 取决于统计分析,以及分析建立在不可检验的假设上,比如未观察到的混杂或者缺失值是随机缺失的假设是缺失的。=根据被估量的选择,这可能会有很大的不同。例如,RCTs中的遵从方案估计往往比意向性估计 (ITT) 估计更依赖于假设,因为只考虑遵循治疗方案的参与者可能会破坏随机化所创造的平衡,并导致治疗组之间的显著差异,对治疗效果的估计带来了混杂。

大量的缺失数据对有效性是一个威胁,而缺失数据的数量可以有很大的变化,这取决于估计量的选择。例如,在ATLAS ACS 2–TIMI 51研究7中,一项评估利伐沙班治疗急性冠状动脉综合征的大型临床试验,估计修正的ITT估计涉及的缺失数据比估计严格的ITT估计少得多;在15526例入组患者中,9.7%缺失ITT结果,5.1%缺失修正的ITT结果。一份来自2010年美国国家研究中心的委员会报告8建议,在选择被估量时,应把缺失资料的数量作为一个考量因素。

在PIONEER 3中,被估量是如何使用的?

PIONEER 3试验在2型成人糖尿病患者中比较了基于背景治疗的3个剂量组口服西格鲁肽和西格列汀的效果。试验的主要终点是糖化血红蛋白 (HbA1c) 从基线到第26周的变化。1

该研究定义了两个被估量:ITT治疗方略估计和依从试验用药品估计。这两项被估量都涉及到治疗组和比较组之间平均终点的差异,不包括两个数据集(ITT/FASPPS)之间的比较。治疗方略人群为ITT人群,即所有随机的受试者,无论是否停用试验用药品或使用挽救性药物 相对应的,试验用产品群体为依从方案群体,即“随机后,在整个试验期间持续使用试验用产品,而不使用抢救药物的受试者”。另一种依从方案的定义是所有个体的亚群,如果分配,他们将坚持所有的比较治疗。在这个定义中,通过将被估量限制在由坚持所有治疗的研究参与者组成的亚群中,避免了所有患者都坚持指定治疗的假设。

被估量的选择是如何影响PIONEER 3的解释的?

估计PIONEER试验中定义的试验产品估计量需要预测停止指定治疗个体的假设结果,如果他们继续接受该治疗。这些假设的结果代表了缺失的数据。用于预测缺失值的重复测量统计模型包含了不可检验的,也许是不可靠的假设。在可能的情况下,定义估计量最好只使用试验受试者接受指定治疗时产生的信息。这些被估量可称为“治疗总结”9ICH-E9附录10中将其称为“在治期间”的策略。在PIONEER 3研究中,一个可能的治疗期总结估计量可以定义如下:从基线到受试者接受指定治疗的第26周,糖尿病得到控制的时间比例,其中控制定义为低于HbA1c的某个阈值。创造性地选择被估量,限制缺失数据的影响,可以提高临床试验结果的稳健性。

参考文献

1. Rosenstock J, Allison D, Birkenfeld AL, et al; PIONEER 3 Investigators. Effect of additional oral semaglutide vs sitagliptin on glycated hemoglobin in adults with type 2 diabetes uncontrolled with metformin alone or with sulfonylurea: the PIONEER 3 randomized clinical trial.JAMA. 2019;321(15): 1466-1480. doi:10.1001/jama.2019.2942

2. Rydén L, Arnman K, Conradson T-B, et al. Prophylaxis of ventricular tachyarrhythmias with intravenous and oral tocainide in patients with and recovering from acute myocardial infarction. Am Heart J. 1980;100(6 pt 2):1006-1012.

3. Cardiac Arrhythmia Suppression Trial (CAST) Investigators. Preliminary report: effect of encainide and flecainide on mortality in a randomized trial of arrhythmia suppression after myocardial infarction. N Engl J Med. 1989;321(6):406-412. doi:10.1056/NEJM198908103210629

4. Rubin DB. Estimating causal effects of treatments in randomized and nonrandomized

studies.J Educ Psychol. 1974;66(5):688–701. doi:10.1037/h0037350

5. Walicke P, Abosch A, Asher A, et al. Launching effectiveness research to guide practice in neurosurgery: a National Institute of Neurological Disorders and Stroke workshop report. Neurosurgery. 2017;80(4):505-514. doi:10.1093/neuros/nyw133

6. Little RJ, D’Agostino R, Cohen ML, et al. The prevention and treatment of missing data in clinical trials. N Engl J Med. 2012;367(14):1355-1360.

7. Little RJ, Wang J, Sun X, et al. The treatment of missing data in a large cardiovascular clinical outcomes study. Clin Trials. 2016;13(3):344-351.

8. National Research Council. The Prevention and Treatment of Missing Data in Clinical Trials: Panel on Handling Missing Data in Clinical Trials. National

Academy Press; 2010.

9. Little R, Kang S. Intention-to-treat analysis with treatment discontinuation and missing data in clinical trials. Stat Med. 2015;34(16):2381-2390.

10. Guidance Document E9(R1): statistical principles for clinical trials: addendum: estimands and sensitivity analysis in clinical trials. FDA. May 2021. Accessed July 15, 2021. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/e9r1-statistical-principles-clinical-trials-addendum-estimands-and-sensitivity-analysis-clinical.